Textová vrstva DjVu dokumentu

Z thewoodcraft.org
Stránka byla naposledy editována 18.8.2023

U DjVu formátu se pracuje s několika typy textových informací, z nichž každá používá svůj vlastní typ vrstvy. Pro uložení skrytého textového obsahu stránky (Hidden text), se používá vrstva TXTz – komprimovaná textová vrstva, se kterou lze (podobně jako s metadaty) pracovat pomocí utility djvused.

Pokud skrytá textová vrstva obsahuje nějaký text, pak se můžete při výpisu setkat s těmito prvky:

page
je přítomen vždy a vymezuje obsah stránky
column
sloupec - vyskytuje se v dokumentech co mají text stránek uspořádaný do sloupců
region
oblast?
para
odstavec
line
řádek
word
nejmenší prvek obsahující samotný text

Souřadnice - Každý z těchto prvků má uvedeny souřadnice levého horního rohu a pravého dolního rohu, jimiž je vymezena jeho pozice vůči stránce. V případě že je obsažen pouze jediný prvek přebírá nadřazený prvek souřadnice podřízeného prvku. Jinak platí že:

  • leftmin - nejnižší leftmin ze všech podřízených prvků
  • topmin - nejnižší topmin ze všech podřízených prvků
  • leftmax - nejvyšší ze všech podřízených prvků
  • topmax - nejvyšší ze všech podřízených prvků

Vytvoření skryté textové vrstvy pomocí OCR

Pro získání textu z obrazové vrstvy pomocí OCR vytvořil Jakub Wilk[1] vynikající opensource nástroj ocrodjvu, který pro rozpoznávání umožňuje vybrat jeden ze dvou OCR nástrojů:

cuneiform
rychlý OCR engine, ruské provenience. Při rozpoznávání českého či slovenského textu poskytuje v některých případech lepší výsledky než tesseract.

nebo

tesseract
se neustále intenzivně vyvíjí a má širokou podporu nejrůznějších jazyků a slovníků

Výpis textové vrstvy

Pro výpis textové vrstvy se používá utilita djvutxt

Korektury skryté textové vrstvy

Korektura skryté textové vrstvy v DjVu dokumentech byla dlouhou dobu dost nepohodlná. Bylo to do značné míry dáno tím, že neexistovalo vhodné GUI, které by to usnadnilo vizuální orientaci při editaci textu.

Vůbec první aplikací, která umožnila alespoň úpravy pozice a změnu velikosti jednotlivých prvků v rámci textové vrstvy, byl djvusmooth.

DJVUxml

Nicméně v současné době existuje mnohem lepší editor textové vrstvy, který pracuje s textovým obsahem vyexportovaným do DjVuXML formátu spřes utilitu djvutoxml, založený na javascriptu – WebDjVuTextEd

hOCR

djvu2hocr (ocrodjvu)

djvuhocr perlový skript

hocr2djvused (ocrodjvu), exituje ale i verze pro python3 https://gist.github.com/char101/b183631680b5b6a62aa991ceaace52a4

hocr2pdf exactimage


  1. Jakub Wilk naprogramoval rovněž djvusmooth, pdf2djvu a konverzní nástroj didjvu