Jak převádět text do elektronické formy

Z thewoodcraft.org
Přejít na: navigace, hledání
Stránka jako je tato, mívá výsledek OCR tak špatný, že je mnohem rychlejší ji manuálně přepsat, než opravit výsledek OCR.

Tato wiki vznikla mimo jiné jako pracovní prostor pro zpracování a následnou veřejnou publikaci unikátních woodcrafterských materiálů.

Většinou jde o texty, které jsou už v originále v děsuplné kvalitě. Jen pro ilustraci zde uvádím na ukázku jednu ze stránek Hlasatele.

Zpracování takového materiálu pomocí OCR je velmi obtížné a vyžaduje značný podíl lidské práce. Pro jednoho člověka je to práce přímo Sisyfovská. Ovšem čím víc lidí se na ní podílí, tím rychleji se udělá a výsledkem je text, který lze nejenom bez problémů číst, nebo vyhledat. Ale také "prohnat" on-line překladačem.

Při korektuře textu zpracovaného přes OCR je třeba řešit některé specifické problémy. Čas od času v něm narazíte na neobvyklé znaky a každý jistě ocení, když na výsledku jeho práce spočine okem také někdo jiný, kdo odhalí případný překlep, doplní odkaz, nebo vloží poznámku.

Obsah tohoto článku je tedy určen pro všechny, co se chtějí také svým dílem na tomto procesu podílet.

Dokumenty v Archivu

  • Každý vícestránkový dokument v DjVu formátu, nebo PDF by měl být zařazen do kategorie [[Kategorie:Archiv]]
  • Součástí popisu by také mělo být - je-li to známo - odkud pochází a kdo ho do elektronické formy zpracoval.
  • U dokumentů, které pochází z jiných webů by měl být pokud možno odkaz na původní dokument
  • Dokumenty, které mohou být zatíženy autorskými právy by měly být dostupné pouze pro přihlášené uživatele s právem k přístupu. To jsou lidé, co buď vynaložili svoje finance k jejich pořízení, nebo lidé co se podílejí na jejich dalším zpracování. Je pouze na jejich uvážení, jestli pak bude zpracovaný výsledek zpřístupněn také široké veřejnosti, nebo ne.

Listování elektronickým dokumentem

Každý vícestránkový dokument v DjVu formátu, nebo PDF lze prolistovat na příslušné stránce souboru v grafické podobě - každá stránka se zobrazuje jako obrázek.

Stažení elektronického dokumentu do lokálního zařízení

Každý dokument, který je přístupný jako soubor, lze stáhnout do lokálního zařízení - stačí k tomu kliknout na obrázek s náhledem stránky.

Pokud takové zařízení disponuje aplikací pro čtení DjVu či PDF souborů, pak není problém si dokument v klidu číst off-line na tabletu, či mobilním telefonu.

Zpracování elektronického dokumentu do knihy

Dokumenty, které jsou ve zdejším archívu většinou obsahují také textovou vrstvu. Ta je při pouhém listování souborem nedostupná.

Proto tato wiki obsahuje rozšíření, které umožňuje tuto textovou vrstvu ze souboru pro každou stránku vytáhnout, a dále zpracovávat.

Další zpracování je - obzvláště v případě stránek s tak bídnou kvalitou, jak bylo demonstrováno hned v úvodu - nezbytné, protože jedině tak lze zajistit, aby bylo možné v obsahu vyhledávat, nebo do něj přidávat poznámky a externí odkazy.

Soubory, které jsou takto zpracované naleznete ve zdejší knihovně.

Knihovna

Jako "knihovna" zde funguje speciální stránka s přehledem existujících indexových stránek.

Je-li do wiki vložen vícestránkový soubor (dokument ve formátu DjVu, nebo PDF), lze jeho stránky prolistovat na příslušné stránce souboru, ovšem zobrazovat se budou pouze jako obrázky! Na obsah textový tohoto souboru nelze odkazovat, ani jej fulltextově prohledávat.

Aby to bylo možné, musí být pro něj založena indexová stránka i odpovídající stránky s extrahovaným textovým obsahem.

Upozornění Editovat a tím i zakládat nové stránky mohu pouze přihlášení uživatelé!

Založení indexové stránky

Založení indexové stránky je jednoduché. Systém umí rozpoznat, že jde o vícestránkový formát a proto v takové případě nabídne na stránce souboru "odkaz na úvodní stránku".

Je-li uživatel přihlášený, tak po kliknutí na tento link je vyzván k tomu, že indexovou stránku může založit.

Ve výchozím stavu se mu otevře prázdný formulář, který lze vyplnit dodatečně. Po jeho uložení, je ze souboru vytažena titulní stránka, a vygenerován seznam odkazů na všechny stránky dokumentu.

Dokud stránky nejsou založeny, jsou odkazy červené - a jejich obsah nedostupný. K jeho extrakci z dokumentu a vygenerování náhledu stránky dojde až v okamžiku založení stránky.

Když zakládám novou stránku…

Tak záleží na tom, kolik času mohu věnovat její korektuře.

Pokud nemám čas… 
Nechám stav stránky tak jak je a bez jakýchkoliv dalších úprav stránku uložím.
Je-li stránka prázdná, bez textu 
Změním stav stránky na "Bez textu" (šedé políčko) a rovněž uložím. Pokud z textové vrstvy přeci jenom něco vypadlo, ale s obsahem nijak nesouvisí, tak můžu buď provést korekturu, nebo text rovnou vymazat.
Pokud mám čas a chuť… 
Pokud mám čas a chuť, udělám před uložením stránky alespoň částečnou korekturu.
Nikde není řečeno, že korektura obsahu musí být dokončena při první editaci stránky. Pokud je obsah komplikovaný, nebo již nemáte chuť v korektuře pokračovat, nastavte stav stránky na "Neověřeno", nebo "Problematická stránka", uložte a nechte toho.

Korektura stránky

  1. Odstraním věci které patří k záhlaví - narušovaly by kontinuitu obsahu
  2. Pokud je zřejmé, že text na stránce pokračuje z nějaké předchozí stránky, vložím na začátek textu řetězec {{subst:FROM}}
  3. Očima kontroluji text vytažený z textové vrstvy s obsahem zobrazené stránky a provádím opravy:
  • V prvé řadě je třeba opravit znaky, které byly pomocí OCR špatně rozeznané - a jiné nesmysly - a doplnit znaky které chybí. Při korektuře nahrazujte znaky pokud možno těmi, které v textu skutečně mají být. Nebo alespoň z jeho logiky vyplývají (např. uvozovky). Pro usnadnění hledání takových znaků je zde k dispozici tabulka pro neobvyklé znaky, odkud je lze kopírovat.
  • Textová vrstva má obvykle na konci řádky vložen neviditelný znak konce řádky, který by pak mohl dělat problémy při formátování textu - je třeba ho odstranit. Někdy je to lze rozeznat ihned - řádek je nedokončený a text pokračuje na další řádce. Jindy to na první pohled vidět není. Optimální je přejít kurzorem na začátek následující řádky, a pak buď pomocí klávesy Backspace "umazávat" mezery, dokud se text nespojí, a pak vložit mezeru. Nebo část mezi slovy označit a nahradit mezerou.
  • Pokud následuje další odstavec, přidá se za text prázdný řádek - wiki to bude interpretovat jako konec odstavce
  • Text rozdělený do více řádku, který evidentně patří k sobě - spojte, tak aby šel kontinálně za sebou.
  • Text, který má být kurzívní - uzavřete mezi zdvojené jednoduché uvozovky
  • Text, který má být tučný, nebo je v textu zvýrazněný větším odsazením mezi znaky - uzavřete mezi ztrojené jednoduché uvozovky
  • Nadpisy doporučuji řešit až poté, co je dokončena korektura všech stránek - teprve pak lze totiž správně zvolit jejich odpovídající úrovně. Viz #Úrovně nadpisů
Pokračování textu 
Pokud je na stránce text, který pokračuje kontinuálně na následující stránce, vložte za něj řetězec {{susbt:CONT}}. Je-li slovo rozděleno, tak ho doplňte a zbytek slova z obsahu následující stránky vyhoďte.
Pokračuje-li text na další stránce novým odstavcem, vložte na konec stránky řetězec {{susbt:NEXT}}
Pokud text pokračuje novým oddílem, nevkládá se nic.

Pro položky zápatí (čísla stránek atp.) platí stejné pravidlo co pro záhlaví - odstranit.

Pak klikem na tlačítko "Ukázat náhled" zkontroluji v jakém stavu stránku opouštím. Podle toho zvolím odpovídající "Stav stránky" a kliknu na Uložit změny.

Poznámka K nahrazení šablon {{FROM}}, {{CONT}} a {{NEXT}} dojde až v okamžiku uložení stránky. Vložený kód obsahuje šablony {{from}} a {{next}}, které pak na stránce generují upozornění, že jde o pokračování textu z předcházející stránky, resp. že text pokračuje.

Poté buď klikněte na šipku v záhlaví, která jde na následující stránku, nebo - pokud byla vložena šablona {{next}}, která vkládá upozornění že text stránky pokračuje na další stránce - na červeně zbarvený link na konci textu - pokud následující stránka již existuje, bude zbarven modře.

…otevírám-li již existující stránku

Poznámka Otevírám-li již založenou stránku, tak před uložením vždy zaškrtnu pole "Tato změna je malá editace"

Pokud je na stránce text, který pokračuje z nějaké předchozí stránky, vložím na začátek textu {{subst:FROM}} a provedu korekturu textu tak, jak je uvedeno v předchozím odstavci.

Pokud text pokračuje, ale dál než na následující stránce, stránku po uložení znovu otevřu přidám jako parametr vložené šablony {{next}} číslo stránky kde text pokračuje. Parametr se přidá tak, že se za jméno šablony napíše svislítko |, které funguje jako oddělovač parametrů, a za příslušné číslo stránky, nebo její název.

Totéž platí pro šablonu {{from}}, pouze s tím rozdílem, že se jako parametr přidá číslo stránky, nebo název článku, odkud text pokračuje.

Zkontrolovaná stránka

Je taková stránka, jejíž obsah prošel korekturou, byly odstraněny všechny chyby a překlepy a její obsah byl odpovídajícím způsobem naformátován.

Záhlaví takové stránky se zobrazuje žlutě.

Ověření stránky

Záhlaví ověřené stránky se zobrazuje zeleně.

Označit stránku jako ověřenou může pouze jiný uživatel, než ten který stránku nastavil jako "Zkontrolovanou". Předtím by měl, alespoň zběžně ověřit jestli je všechno tak jak má být.

V případě že tomu tak není, je na něm, aby změnil status stránky tak, aby odpovídal skutečnosti!

Dodatečné úpravy stránky

Nahrubo zpracovaný text, který však prošel korekturou lze následně dále zpracovat, jako každou jinou wiki stránku. Tzn.:

  • Udělat kurzívu či ztučnění, tam kde je zvýrazněna změna v původním textu
  • Vyznačit nadpisy
  • Doplnit odkazy na externí stránky, nebo jiné stránky této wiki
  • Případně vložit doplňující poznámky pod čarou pomocí tagu <ref> </ref>

Finální úprava knihy

Úrovně nadpisů

Jak potlačit u nadpisů generování obsahu na stránce

U některých stránek, jako je například strana č. 13 ve 14. angl. vydání Svitku březové kůry, kde je použito váce úrovní nadpisů, je nutné použít systémovou proměnnou __NOTOC__, která potlačí generování obsahu.

Tu je ale nutné uzavřít do tagu <noinclude>__NOTOC__</noinclude> - jinak by se negeneroval obsah ani na stránce hotové elektronické knihy.

Kontinuita textu

Jak psát bibliografické odkazy

Protože součástí tohoto webu jsou i vlastní práce, považuji za důležité uvést také pravidla pro psaní bibliografických odkazů a jejich použití v textu

Jako modelový příklad, jsem vybral knihu "The chief", kterou napsal H. Allen Anderson, protože jde zároveň o knihu s velice pečlivě zpracovaným poznámkovým aparátem[1]

Odkaz na knihu

Nejprve je zde třeba vytvořit pro knihu záznam, kategorizovaný do Kategorie:Bibliografie s názvem, který se pak bude používat při odkazech v textu.

Upozornění Než založíte nový bibliografický záznam, zkontrolujte nejdřív, zda-li již neexistuje. Pokud ano, tak ho použijte a nezakládejte nový!

Syntaxe je následující:

  1. Příjmení autora práce oddělené čárkou a mezerou od roku vydání.
  2. Příjmení má první písmeno velké, ostatní písmena jsou malá.

V textu se pak na tuto stránku odkazuje tímto Harvardským způsobem citování, kdy jméno a rok vydání odkazuje na stránku s bibliografickým záznamem. Viz příklad

Poznámka Setonovi rodiče (Anderson, 1986, první strana obrazové přílohy)
Ukázka kódu 
Setonovi rodiče ([[Anderson, 1986]], první strana obrazové přílohy)

U překladů, nebo knih které jsou dílem kolektivu autorů, lze místo jména autora použít pro stránku s bibliografickým záznamem název knihy. Viz:

Poznámka …píše Logan v předmluvě překladu Andersonovy knihy The chief (Náčelník, 2012, s.10-12)
Ukázka kódu 
 píše Logan v předmluvě překladu Andersonovy knihy ''The chief'' ([[Náčelník, 2012]], s.10-12)

Bibliografický záznam

Odpovídá platné normě a je umístěn v záhlaví odkazované stránky. Pro vytvoření záznamu lze využít stránku http://www.citace.com/vytvorit-citaci

V případě Andersonovy knihy vypadá takto:

Poznámka ANDERSON, Hugh Allen. The chief: Ernest Thompson Seton and the Changing West. 1rd., Texas: Texas A&M University Press, College Station, 1986, USA. ISBN 0-89096-239-1
Ukázka kódu 
ANDERSON, Hugh Allen. ''The chief: Ernest Thompson Seton and the Changing West''. 1rd. Texas: Texas A&M University Press, College Station, 1986, USA. ISBN 0-89096-239-1

Pod tímto záznamem může následovat:

  • Informace o autoru, či překladateli - ev. odkaz na příslušné stránky, pokud zde již existují
  • Recenze knihy
  • A případně zde mohou být uvedeny i vybrané citace z knihy, pokud to není kniha běžně dostupná. Ty mohou být zpracované tak, aby na ně bylo možné rovněž odkazovat.
Poznámka Je-li kniha, nebo její část, umístěná ve zdejším Archivu, nebo knihovně, tak zde mohou být i odkaz na příslušný soubor či stránky.

Neobvyklé znaky

V následující tabulce jsou uvedeny méně obvyklé UNICODE znaky, které se mohou vyskytovat ve zpracovávaných textech.

Pravidla pro jejich psaní a umístění nejsou nahodilá, proto – pokud jde o znaky s nimiž jste se dosud nesetkali – nezapomeňte se podívat i na odkazované stránky z webu http://www.liteera.cz (jsou uvedeny ve sloupci "Použití"). Tam můžete nalézt podobnou tabulku: http://www.liteera.cz/slovnik/tabulka-entit

Ohledně psaní neobvyklých znaků v linuxovém prostředí jsem napsal blogpost na abclinuxu - http://www.abclinuxu.cz/blog/kenyho_stesky/2017/1/psani-zridkave-uzivanych-znaku-v-linuxovem-prostredi kde se problematice psaní spojovníků a pomlček rovněž věnuji.

Jak znak vypadá? HTML entita Použití Unicode
Tři tečky (Výpustka) Se používají pro naznačení pokračování textu, případně jako symbol, který nahrazuje text vypuštěný - odtud výpustka http://www.liteera.cz/slovnik/vypustka Obecná interunkce. V unicode je znak uveden jako U+2026 HORIZONTAL ELIPSIS
■ □ ▤ ▥ ▦ ▧ ▨ ▩ Symboly barev: černá (plný); bílá nebo stříbrná (prázdný); modrá (horizontální šrafování); červená (vertikální šrafování); černá v heraldice (mřížka) ; zelená (příčné šrafování z levého rohu); purpurová (příčné šrafování z pravého rohu) ; pro příčnou mřížku barevná symbolika není ; žlutá nebo zlatá (tečkování, protože unicode znak není lze jako náhradu použít "pětitečku" viz níže)
½ ⅓ ⅔ ↉ ¼ ¾ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅐ ⅛ ⅜ ⅝ ⅞ ⅑ ⅒ ⅟ Zlomky Se zlomky se lze nejčastěji setkat v anlosaských textech (u palců, uncí, atp.) Číselné tvary. VULGAR FRACTION
₀₁₂₃₄₅₆₇₈₉₀₎₍ Dolní indexy S dolními indexy se nejčastěji můžete setkat u zápisu chemických vzorců
¹²³⁴⁵⁶⁷⁸⁹⁰⁾⁽ Horní indexy Horní indexy se obvykle používají u číslování poznámek v textu, případě u matematických vzorců
ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ ⅺ ⅻ ⅼ ⅽ ⅾ ⅿ ↀ ↁ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ Ⅼ Ⅽ Ⅾ Ⅿ Římské číslice S římskými číslicemi se lze setkat na mnoha místech. Používají se u číslování poznámek v textu, stránek, atp.
£¢ Měnové značky http://www.liteera.cz/slovnik/mena-euro-libra-dolar
©®™ Copyright, Registrovaná značka, Obchodní značka http://www.liteera.cz/slovnik/copyright http://www.liteera.cz/slovnik/registered-a-trademark
± Plus mínus.. Plus minus se používá u číselných hodnot pro vyjádření odchylky, či přibližné tolerance http://www.liteera.cz/slovnik/plus-minus
Pomlčka. Může být v textu alternativně nahrazena čárkami, či závorkou. Mezi slovy je pomlčka vždy oddělena mezerami. Může být nahrazena dlouhou pomlčkou bez mezer. Neplést se znakem mínus, spojovníkem (HYPHEN), nebo vodorovnou zlomkovou čárou (HORIZONTAL BAR)! Více viz http://www.liteera.cz/slovnik/podobne-znaky a http://www.liteera.cz/slovnik/radkovy-zlom U+2013 EN DASH
Dlouhá pomlčka. Používá se jako alternativa normální pomlčky – kupř. tam, kde je mezi slovy pomlčka oddělená mezerami, lze použít dlouhou pomlčku bez mezer. Používá se také na začátku, či konci citace. Neplést se znakem mínus, spojovníkem (HYPHEN), nebo vodorovnou zlomkovou čárou (HORIZONTAL BAR)! Více viz http://www.liteera.cz/slovnik/podobne-znaky a http://www.liteera.cz/slovnik/radkovy-zlom U+2014 EM DASH
Spojovník V nedělitelné formě se používá u spojení dvou slov do jednoho. Jinak na konci věty při dělení slova, ovšem v případě wiki dělení slov nepoužíváme, proto je zde uveden pouze nedělitelný spojovník. Neplést s pomlčkami či znakem mínus! Více viz http://www.liteera.cz/slovnik/podobne-znaky a http://www.liteera.cz/slovnik/spojovnik U+2010 HYPHEN a U+2011 NON-BREAKING HYPHEN
Křížek Se zde nejčastěji používá jako symbol data úmrtí (Pro datum narození se používá hvězdička *) Více viz http://www.liteera.cz/slovnik/hvezdicka-kriz-ampersand-paragraf Obecná interpunkce. U+2020 DAGGER
⁎ ⁑ ⁂ ⁕ Hvězdičky (asterisky) Mohou být někdy použity u číslování poznámek v textu LOW ASTERISK, TWO ASTERISK ALIGNED VERTICALY, ASTERISM a FLOWER PUNCTUATION MARK
 » « Francouzské uvozovky http://www.liteera.cz/slovnik/francouzske-uvozovky U+00BB RIGHT-POINTING a U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
‧ ⁚ ⁖ ⁝ ⁘ ⁛ ⁞ ⁙ ⁜ ※ Tečky a tečkované kříže
‘ ’ ‚ ‛ Jednoduchá levá a pravá uvozovka, jednoduchá dolní uvozovka a obrácená horní jednoduchá uvozovka Obecná interunkce. U+2018 a U+2019 SINGLE QUOTATION MARK, U+201A SINGLE LOW-9 a U+201B SINGLE HIGH-REVERSED-9 QUOTATION MARK
“ ” „ ‟ Dvojité uvozovky. Levá a pravá horní. A levá dolní a levá horní dvojitá uvozovka Obecná interunkce. U+201C a U+201D DOUBLE QUOTATION MARK a U+201E DOUBLE LOW-9, a U+201F DOUBLE HIGH-REVERSED-9 QUOTATION MARK
  1. Poznámkový aparát - je doplňující složka textu v podobě souboru poznámek, v nichž autor nebo editor textu uvádí komentář k textu, popř. bibliografické citace. Poznámky bývají s textem propojeny průběžným číslováním, starší označování grafickými značkami bývá dnes někdy užíváno pro redakční poznámky. Bývají umístěny na dolním okraji každé strany, na konci kapitoly nebo na konci textu. (Převzato z http://aleph.nkp.cz/publ/ktd/00000/24/000002403.htm [cit. 2016-11-26])