Uwagi do "Opisu funkcjonalnego rządowego systemu informacji" RCL

2010-03-08 00:00:00 +0000


Rządowe Centrum Legislacji opublikowało Opis funkcjonalny rządowego systemu informacji i zaprosiło do zgłaszania uwag. Poniżej uwagi przesłane przeze mnie do RCL. W związku z rozpowszechnioną praktyką publikacji przez instytucje rządowe zeskanowanych dokumentów papierowych jako obrazka (bitmapy) osadzonej w formacie PDF proponuję by w projekcie uwzględnić możliwość przepuszczania takich plików przez oprogramowanie OCR lub pozyskiwanie ich od razu w formie elektronicznej (eksport z DOC do PDF za pomocą PDFcreator).

Funkcjonalność OCR w dokumentach PDF z dużą skutecznością realizuje np. Adobe Acrobat. W dokumencie napisano, że pliki będą zgodne z PDF/A więc i tak konieczne będzie ich dodatkowe przetwarzanie po skanowaniu. Acrobat potrafi również przetwarzać dokumenty masowo.

Pliki PDF zawierające bitmapy są nieprzeszukiwalne, nie da się wykopiować fragmentów tekstu do skomentowania i są ignorowane przez wyszukiwarki. Znormalizowanie ich formatu oraz zawartości radykalnie poprawiłoby ich czytelność i dostępność dla komentujących.

Równocześnie proszę o rozważenie możliwości, by wszystkie dokumenty PDF dodawane do systemu były dostępne do przetwarzania automatycznego i spełniały następujące zalecenia:

  1. Każdy dokument ma stały i niezmienny adres zawierający unikalną nazwę pliku. Przykład dobrej nazwy: http://www.mf.gov.pl/_files_/bip/bip_projekty_aktow_prawnych/oc/2009/ustawa_gry_13.11/osr_131109.pdf Przykład złej nazwy (chodzi wyłącznie o format adresu URL, akurat ten nie prowadzi do pliku ale niektóre BIP taki stosują): http://www.mf.gov.pl/dokument.php?const=6&dzial=640&id=191789&typ=news
  2. Dostęp do każdego pliku PDF nie wymaga uprzedniego zalogowania, uwierzytelnienia i nie jest zabezpieczony przez CAPTCHA. Jeśli istnieje prawdopodobieństwo, że automatyczne przetwarzanie może powodować problemy z wydajnością to proszę rozważyć rozdzielenie serwisu interaktywnego od serwisu statycznych dokumentów i publikować te ostatnie za pomocą usług typu CDN (Content Delivery Network - ceny zaczynają się od $15/miesięcznie np. w Cachefly)
  3. Udostępniany jest katalog wszystkich zarejestrowanych w systemie plików PDF publikowany w formacie XML. Ze względu na ich znaczną liczbę konieczne może być publikowanie wielu katalogów (np. dla poszczególnych sekcji) oraz wskazującego na nie metakatalogu. Formatem dokumentów XML może być format opracowany specjalnie na tę potrzebę lub Atom (http://tools.ietf.org/html/rfc4287)
  4. Strona zawiera mapę (sitemap) dostępną dla wyszukiwarek zgodną z formatem XML Sitemap (http://www.sitemaps.org/protocol.php) publikowaną pod stałym adresem (przykład http://ipsec.pl/sitemap.xml)
  5. Serwis udostępnia informacje o nowych dokumentach w postaci feedu RSS publikowanego w formacie RDF lub Atom (http://tools.ietf.org/html/rfc4287). Ze względu na znaczną liczbę dokumentów konieczne może być publikowanie wielu feedów (np. dla poszczególnych sekcji). Różnica pomiędzy feedem a katalogiem opisanym w pkt 3 polega na tym, że katalog może się jedynie powiększać, zaś feed jest dokumentem o treści zmiennej, opisującej tylko nowe dokumenty.