Nástroje pro úpravu obsahu DjVu souborů

Z thewoodcraft.org
Stránka byla naposledy editována 17.8.2023

Na základě empirického srovnávání konverzních výsledků komerční aplikace Document Express a opensource nástrojů z DjVuLibre, lze konstatovat, že u kvalitních předloh, skenovaných na kvalitním skeneru lze s komerčním nástrojem dosáhnout mnohem lepší výsledek. A to jak z hlediska kompresního poměru, tak i pokud jde o kvalitu OCR.

Naopak u předloh velice špatné kvality byl lepší výsledek spíše na straně opensource nástrojů. Navíc na straně opensource je jeden velice důležitý trumf - skutečný editor skryté textové vrstvy djvusmooth kterým lze provést korekturu výsledku OCR.

Djvusmooth

http://jwilk.net/software/djvusmooth

Je opensource editor DjVu dokumentů, jehož autorem (stejně jako ocrodjvu je Jakub Wilk.

Jde v podstatě o grafickou nadstavbu k jeho pythonovského modulu pro práci s DjVu, která je určena pro práci s metainformacemi a již existující skrytou textovou vrstvou..

Plusy
- umožňuje vytvářet a editovat záložky obsahu (outline)
- umožňuje vkládat hyperlinky a metainformace
- umožňuje editovat skrytou textovou vrstvu a měnit umístění a rozměry všech prvků textové vrstvy
- Pro OCR lze nastavit použitý jazyk a funguje docela dobře
Mínusy
- pouze v omezené míře umožňuje přidávat a odstraňovat nové prvky ve skryté textové vrstvě
- neumí prvky ve skryté textové vrstvě přesouvat

Aplikace je stále v aktivním vývoji

Djvusmooth 0.2.7.png

Ocrodjvu

http://jwilk.net/software/ocrodjvu

Je ve své podstatě konzolová nadstavba pro aplikaci OCR na DjVu dokumenty. Jako engine může používat buď Tesseract, nebo Cuneiform.

Zatím co ocrodjvu je samostatná konzolová aplikace, komerční nástroje pro zpracování DjVu obvykle pracují přímo s OCR aplikací třetích stran, kterou si nesou sebou. Výhodou ocrodjvu je že umožňuje zvolit která aplikace se má na OCR použít. Např.při použití cuneiform u stránky s českým textem lze dosáhnout mnohem lepšího výsledku, než komerčního produktu.

Také vhodnou volbou parametrů a úpravou zpracování vstupního dokumentu, lze dosáhnout kvalitnějšího výsledku OCR

Příklad aplikace ocrodjvu na DjVu dokument najdete jako přílohu. Pro porovnání je uveden výsledek OCR u aplikace Document Express.

Výstup z ocrodjvu byl upraven tím že odstavce byly zalomeny na řádky, pro větší přehlednost.

ocrodjvu Document Express
Mat/ic Icosa/tec/ran
!icet'b
IV/ KOMBINATOR ICKÉ HLAVOLAMY
5/ PLATONOVA TĚLESA A HRAČKY FIRMY PYRAMINX
ce těchto hraček je však velmi obtížné provádět, pokud hračky samy nejsou k dispozi-
 ci. Jako u Rubikovy kostky, i zde je potřeba si trochu zaexperimentovat, abychom na-
 lezli užitečné postupy.
Řekli jsme, že všechna Platónova tělesa byla vvužita ke konstrukci těchto hraček.
 Kdepak tedy márne ikosaedr?, zeptáte se zcela oprávněně. Ten je šikovně zamaskován
 do tvaru koule s názvern „Incredi Ball" — tedy neuvěřitelnÝ míč. Hračka je to krásná,
 ale víte-li si rady s dodekaedÍ ickou íílohou na Megaminxu, zvládnete ji okamžitě. In-
 credi Ball je totiž k IVIegaminxu ve stejnétn vztahu, jako minikostka ke klasické kostce.
 Trojůhelníky, ze kterúch se tato hračka skládá, se totiž při otáčení pohybují stejně jako
 rohové kostičky Megantinxu a navíc nemáte žátlné starosti s hranovými kostičkamL
 Na těchto příkladech vzájemných vztahů jednotlivúch hraček je vidět, že má smysl Še
 jimi zabúvat hlouběji jako celkem.
Scewb
Magic /cosahedron
ce těchto hraček je však velmi obtížné provádět, pokud hračky samy nejsou k dispozi-
ci. Jako u Rubikovy kostky, i zde je potřeba si trochu zaexperimentovat, abychom na-
lezli užitečné postupy.
Í{.ekli jsme, že všechna Platónova tělesa byla využita ke konstrukci těchto hraček
Kdepak tedy máme ikosaedr?, zeptáte se zcela oprávněně. Ten je šikovně zamask()Ván
do tvaru koule s názvem ..Incredi Bali" - tedy neuvěřitelný míč. Hračka je to krásná,
ale víte-li si rady s dodekaedrickou úlohou na Megaminxu, zvládnete ji okamžitě. In-
credi Bali je totiž k Megaminxu ve stejném vztahu, jako minikostka ke klasické kostce.
Trojúhelníky, ze kterých se tato hračka skládá, se totiž při otáčení pohybují stejně jako
rohové kostičky Megaminxu a navíc nemáte žádné starosti s hranovými kostičk mi.
Na těchto příkladech vzájemných vztahů jednotlivých hraček je vidět, že má smysl s
jimi zabývat hlouběji jako celkem.
lVI KOMBINATORICKÉ HLAVOLAMY
51 PLATONOVA Ti:LESA A HRACKY FIRMY PYRAMINX
209

Rozdíly:

  • ocrodjvu se pokusí rozpoznat nejenom řádky, ale také odstavce (Document express pracuje pouze s řádky)
  • ocrodjvu při rozpoznávání pravděpodobně primárně postupuje zleva doprava. Proto je text záhlaví umístěn před vlastním obsahem.
  • pokud jde o chyby při rozpoznávání, je výsledek tak 50:50

Komerční produkty

Komerční produkty oproti opensource nístrojům DjVuLibre produkovaly lepší výsledky z hlediska kompresního poměru. Bylo to dáno především tím, že obsahovaly další algoritmy, které podle charakteru dokumentu volily optimální parametry pro vlastní kompresi. Pochopitelně vždy záleží především na kvalitě vstupního souboru – čím kvalitnější předloha, tím lepší výsledek.


Bohužel vývoj i podpora všech komerčních aplikací pro práci se soubory DjVu formátu po r. 2010 skončila a v mnoha směrech již zastaraly protože neumějí…

  • …pracovat s meta tagy (podpora pro EXIF a XMP),
  • …editovat skrytou textovou vrstvu.
  • A byly prakticky všechny MS Windows only.

Nicméně jejich plnohodnotná opensource alternativa zatím stále neexistuje. Je to dáno do značné míry tím, že jsou dnes již většinou nedostupné. Naštěstí se mi je podařilo uchovat a tak je lze poskytnout v souladu s rozhodnutím Soudního dvora EU ze dne 3.7.2012 v souladu se Směrnicí 2009/24/ES ze dne 23. dubna 2009[1] O právní ochraně počítačových programů, poskytnout ke studijním účelům. S trouchou štěstí se dají v linuxovém prostředí rozběhat pod wine:

  • DjVu Solo 3.1
  • DjVu Editor
  • DjVu Express Pro 6.0
  • JRAPublish v2.0
  • DjVu Encode

Podrobnější informace o těchto aplikacích se lze dočíst na stránce věnované komerčnímu software.

Nástroje pro dávkové zpracování

Document Express 7.5 Enterprise

Document Express 7.5 Enterprise.png