show English version

Identifikace výsledku:
ZCU/KKY/2022/001

autorizovaný software (R)

Rok vydání: 2022
Autor: Jan Švec, Martin Bulín, Petr Salajka, Ivan Gruber, Petr Neduchal, Marek Hrúz, Tomáš Zítka, Miroslav Hlaváč, Zbyněk Zajíc, Pavel Ircing, Luděk Müller

DOAZARC - integrovaný systém pro zpracování, uchování a zpřístupnění naskenovaných dokumentů v azbuce

Tento software je hlavním výsledkem projektu DG20P02OVV018: "Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu". Skládá se z několika modulů, které dokáží automaticky zpracovat velké archivy naskenovaných dokumentů v azbuce (ukrajinština a ruština) a latince (čeština) metodami optického rozpoznávání znaků (OCR), výsledný el. text uložit do speciálně navržené databáze a následně archiv zpřístupnit uživatelům s využitím uživatelsky přívětivého grafického uživatelského rozhraní (GUI).

Screenshot

TECHNICKÉ PARAMETRY

Základem celého řešení je tzv. backend server implementovaný v programovacím jazyce Python a využívající především databázový systém MongoDB pro uložení originálních dokumentů i všech mezivýsledků vzniklých při automatickém zpracování.

Jádrem backendu jsou jednotlivé "pracovní moduly" (workers) vykonávající potřebné funkce (např. import dat či jejich převod do jednotného formátu) a systém předávání dat mezi nimi (pipelines).

Nejdůležitějším workerem integrovaným do finálního softwaru je modul pro předzpracování naskenovaných dokumentů a jejich následné OCR - ten byl uplatněn jako výsledek ROCRAZB již v předcházející etapě projektu.

Poslední vrstvou uvedené pipeline je webové grafické uživatelské rozhraní, jehož ukázka je na obrázku výše. Je založeno na nejnovějších webových technologiích, včetně React a TypeScript. Rozhraní je hostováno na samostatném Next.js serveru, který je nezávislý na výše uvedeném backend serveri a vzájemná komunikace mezi těmito dvěma servery je navázána přes protokol HTTP. Tento design nám umožňuje využít výhody systému Next.js, mezi něž patří napří. optimalizace renderování stránky a doby načítání dat. Webové rozhraní je responzivní a schopné detekovat typ použitého zařízení (je k dispozici i verze pro mobilní zařízení).

Díky zmíněnému uživatelsky přívětivému grafickému uživatelskému rozhraní (GUI) je tento archiv přístupný širokému spektru uživatelů bez ohledu na jejich technické dovednosti, což podporuje demokratizaci znalostí a historického vzdělání. Software je vybaven unikátními funkcionalitami, které umožňují zpracování rozsáhlé sady originálních skenů dokumentů s maximální efektivitou a užitečností pro uživatele. Hlavní součástí je pokročilý OCR systém, který je schopen automaticky převést tištěné a psané texty na elektronický text. Tato technologie je multijazyčná, což znamená, že dokáže rozpoznat a převést texty napsané v různých jazycích, včetně ruštiny, ukrajinštiny a latinky (češtiny). Tato vlastnost je klíčová pro zpracování dokumentů obsahujících texty v těchto jazycích. Software je schopen automaticky detekovat jazyk textu na skenech dokumentů (ruština, ukrajinština, čeština). Po provedení OCR je každý dokument indexován a uložen v databázi. Tato indexace umožňuje uživatelům snadno vyhledávat konkrétní dokumenty nebo klíčová slova v obsahu těchto dokumentů. Uživatelé mohou rychle najít relevantní informace bez nutnosti manuálního procházení celého archivu. Pro lepší prezentaci ve webovém rozhraní a zvýšení přesnosti OCR byly implementovány funkce automatického ořezu a narovnání dokumentů. To zajišťuje, že dokumenty jsou zobrazeny v optimální podobě, bez nepotřebných okrajů nebo skosení, což výrazně zlepšuje uživatelský zážitek.

Celkově tyto funkce umožňují rychlé, efektivní a uživatelsky přívětivé zpracování a prezentaci velkých archivů dokumentů, což usnadňuje přístup k historickým materiálům a jejich studium pro širokou veřejnost. Webový archiv zpřístupňuje více než 300.000 skenovaných stran, dále pomocí něj bylo zpracování více než 1.3 milionu skenů originálních archiválií, které byly navráceny na Ukrajinu.

EKONOMICKÉ a SPOLEČENSKÉ PARAMETRY

Ekonomické parametry softwaru nelze jednoduše vyčíslit. Jeho společenský přínos je ovšem značný. Software má mimořádný význam z hlediska zachování historického dědictví a kulturní paměti. Digitální archiv dokumentů NKVD/KGB poskytuje přístup k důležitým historickým dokumentům, které se týkají občanů Československa, kteří byli perzekvováni na území Ukrajiny. Tato dokumentace představuje vzácný pramen pro studium a pochopení událostí, které ovlivnily osudy mnoha lidí během 20. století.

Digitální archiv umožňuje zachovat paměť o obětech politických represí a perzekucí, které probíhaly v dobách sovětského režimu. Díky tomu mají potomci a historici možnost lépe porozumět minulým událostem a jejich dopadu na společnost.

Důležitost tohoto projektu přesahuje hranice ČR. On-line zpřístupněná data prezentovaná v mnohojazyčném uživatelském rozhraní (čeština, angličtina, ruština, ukrajinština) činí tento archiv přístupný širší mezinárodní veřejnosti. Fyzické archivy mohou podléhat poškození či ztrátě, což se projevilo během ruské invaze na Ukrajinu, některé z archiválií byly trvale ztraceny při bombardování archivů. Digitální archiv umožňuje uchovat tyto cenné materiály v trvalejší a snadno přístupné formě. Jedním z přínosů spolupráce ZČU, ÚSTR a Ukrajinských archivů ATZ ASBU, DAZO a HDA SBU je návrat automaticky zpracovaných, digitálních dokumentů zpět na Ukrajinu, kde budou uloženy spolu s původními listinnými dokumenty.

Archiv byl veřejně prezentován ve spolupráci s Ústavem pro studium totalitních režimů v Knihovně Václava Havla, Praha, prezentaci byli přítomni zástupci ukrajinských archivů - ředitel Archivu Služby bezpečnosti Ukrajiny Andrij Kohut a ředitel Archivní služby Ukrajiny Anatolij Chromov (https://www.ustrcr.cz/akce/zveme-na-diskuzi-o-archivech-kgb-na-ukrajine/)

on-line záznam https://www.youtube.com/watch?v=lMbd5CNHTro).

Spuštění archivu bylo pokryto i formou tiskových zpráv:

Popis systému byl publikován v:

Bulín, M., Švec, J., Ircing, P. (2023). The System for Efficient Indexing and Search in the Large Archives of Scanned Historical Documents. In: Kamps, J., et al. Advances in Information Retrieval. ECIR 2023. Lecture Notes in Computer Science, vol 13982. Springer, Cham. https://doi.org/10.1007/978-3-031-28241-6_15
Gruber, I. et al. (2020). An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents. In: Karpov, A., Potapova, R. (eds) Speech and Computer. SPECOM 2020. Lecture Notes in Computer Science(), vol 12335. Springer, Cham. https://doi.org/10.1007/978-3-030-60276-5_17

UŽIVATELSKÝ MANUÁL

Ke stažení zde.

Licenční podmínky

Výsledek vznikl jako součást řešení projektu Ministerstva kultury číslo DG20P02OVV018 a jeho uživatelem je partner projektu - ÚSTR. Vyzkoušet jej však může kdokoliv přes webové rozhraní - viz link níže.

Licence pro provozování softwaru je poskytována zdarma pro instituce, které mají s partnerem projektu - Ústavem pro studium totalitních režimů (ÚSTR) - ošetřena práva na data v aplikaci dostupná (naskenované archivní dokumenty).

Lokalizace výsledku / potvrzení o užívání

Software je možno vyzkoušet na webové adrese:

https://archivkgb.zcu.cz/en

Software je (kromě využití partnerem projektu - ÚSTR) užíván i v zahraničí, konkrétně v State Branch Archive of the Security Service of Ukraine - viz potvrzení o užívání.

OCENĚní

Software zvítězil v kategorii "AI a společenský přínos" v soutěži AI Awards 2023 - viz výsledky soutěže a tisková zpráva ZČU.

Pozice katedry v rámci univerzity

Oddělení katedry