Uwagi do "Opisu funkcjonalnego rządowego systemu informacji" RCL

Rządowe Centrum Legislacji opublikowało Opis funkcjonalny rządowego systemu informacji i zaprosiło do zgłaszania uwag. Poniżej uwagi przesłane przeze mnie do RCL.

W związku z rozpowszechnioną praktyką publikacji przez instytucje rządowe zeskanowanych dokumentów papierowych jako obrazka (bitmapy) osadzonej w formacie PDF proponuję by w projekcie uwzględnić możliwość przepuszczania takich plików przez oprogramowanie OCR lub pozyskiwanie ich od razu w formie elektronicznej (eksport z DOC do PDF za pomocą PDFcreator).

Funkcjonalność OCR w dokumentach PDF z dużą skutecznością realizuje np. Adobe Acrobat. W dokumencie napisano, że pliki będą zgodne z PDF/A więc i tak konieczne będzie ich dodatkowe przetwarzanie po skanowaniu. Acrobat potrafi również przetwarzać dokumenty masowo.

Pliki PDF zawierające bitmapy są nieprzeszukiwalne, nie da się wykopiować fragmentów tekstu do skomentowania i są ignorowane przez wyszukiwarki. Znormalizowanie ich formatu oraz zawartości radykalnie poprawiłoby ich czytelność i dostępność dla komentujących.

Równocześnie proszę o rozważenie możliwości, by wszystkie dokumenty
PDF dodawane do systemu były dostępne do przetwarzania automatycznego i spełniały następujące zalecenia:

<

ol>

  • Każdy dokument ma stały i niezmienny adres zawierający unikalną nazwę pliku. Przykład dobrej nazwy:
  • http://www.mf.gov.pl/_files_/bip/bip_projekty_aktow_prawnych/oc/2009/ust...

    Przykład złej nazwy (chodzi wyłącznie o format adresu URL, akurat
    ten nie prowadzi do pliku ale niektóre BIP taki stosują):

    <

    p>http://www.mf.gov.pl/dokument.php?const=6&dzial=640&id=191789&typ=news

  • Dostęp do każdego pliku PDF nie wymaga uprzedniego zalogowania, uwierzytelnienia i nie jest zabezpieczony przez CAPTCHA. Jeśli istnieje prawdopodobieństwo, że automatyczne przetwarzanie może powodować problemy z wydajnością to proszę rozważyć rozdzielenie serwisu interaktywnego od serwisu statycznych dokumentów i publikować te ostatnie za pomocą usług typu CDN (Content Delivery Network - ceny zaczynają się od $15/miesięcznie np. w Cachefly)
  • Udostępniany jest katalog wszystkich zarejestrowanych w systemie plików PDF publikowany w formacie XML. Ze względu na ich znaczną liczbę konieczne może być publikowanie wielu katalogów (np. dla poszczególnych sekcji) oraz wskazującego na nie metakatalogu. Formatem dokumentów XML może być format opracowany specjalnie na tę potrzebę lub Atom (http://tools.ietf.org/html/rfc4287)
  • Strona zawiera mapę (sitemap) dostępną dla wyszukiwarek zgodną z formatem XML Sitemap (http://www.sitemaps.org/protocol.php) publikowaną pod stałym adresem (przykład http://ipsec.pl/sitemap.xml)
  • Serwis udostępnia informacje o nowych dokumentach w postaci
    feedu RSS publikowanego w formacie RDF lub Atom
    (http://tools.ietf.org/html/rfc4287). Ze względu na znaczną liczbę dokumentów konieczne może być publikowanie wielu feedów (np. dla poszczególnych sekcji). Różnica pomiędzy feedem a katalogiem opisanym w pkt 3 polega na tym, że katalog może się jedynie powiększać, zaś feed jest dokumentem o treści zmiennej, opisującej tylko nowe dokumenty.
  • <

    ol>

    Comments

    Comment viewing options

    CAPTCHA
    This question is for testing whether you are a human visitor and to prevent automated spam submissions.
    Select your preferred way to display the comments and click "Save settings" to activate your changes.

    Wiesz co...

    Do końca lutego br. oczekujemy na ewentualne uwagi lub sugestii dotyczące przedstawianego dokumentu. Uwagi prosimy przedstawiać drogą elektroniczną na adres: traszczepkin@rcl.gov.pl. Odpowiedzi na zgłoszone sugestie udzielone zostaną drogą mailową do dnia 15 marca br.

    Uwagi można było zgłaszać do końca lutego, ale spróbować zawsze warto. Ja też dodam swoją... PDF nie jest otwartym formatem dokumentu jego tworzenie wymaga posiadania odpowiedniego narzędzia.

    BTW z moich informacji wynika, że RCL jednak wydłużył okres przyjmowania uwag do 15 marca.

    Specyfikacja PDF jest otwartym standardem ISO. Co istotniejsze - w odróżnieniu np. od OOXML - PDF ma wiele niezależnych implementacji np. zarówno do czytania jak i generowania iText.

    Tru... coś mi się pomerdało z tym zamkniętym PDFem. Sam siedzę nad zestawem iText+JasperReports, a takie głupoty we łbie się lęgną.

    To może być bardziej skomplikowane bo Acrobat to nie tylko ISO 32000 ale też np. XFA czyli formularze, które niby mają otwartą specyfikację ale nikt poza Adobe ich nie implementował (a przynajmniej mi nie wiadomo).

    Akurat do publikacji to nie jest potrzebne - ale już próba samodzielnego napisania formularza używanego w e-Deklaracjach bez Acrobata może być nie lada wyzwaniem.

    Ale z drugiej strony Acrobat/Reader na podstawie takiego formularza XFA osadzonego w PDF-ie wyrzuca prościutki XML, opisany w specyfikacji MF na stronie e-Deklaracji (przesyła się go po HTTP). Praktyczną demonstracją, że to działa jest niezależna implementacja IPS w ubiegło- i tegorocznym programie PITY.