OCR program Tesserart Thread poster: Milan Condak
|
Kdo má koupenou licenci pro FineReader nebo jiný fungující OCR program, může jej nadále používat. Mně už tyto programy přestaly fungovat. Proto jsem hledal náhradu. Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy http://www.condak.cz/nove/2021-01/24/cs/02.html Tak jsem na druhé stránce viděl položku PDF2TXT (obrázek dole). ... See more Kdo má koupenou licenci pro FineReader nebo jiný fungující OCR program, může jej nadále používat. Mně už tyto programy přestaly fungovat. Proto jsem hledal náhradu. Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy http://www.condak.cz/nove/2021-01/24/cs/02.html Tak jsem na druhé stránce viděl položku PDF2TXT (obrázek dole). 02 Bez nastaveného jazykového páru Menu Tools (Nástroje) PDF2TXT Text z PDF hromadně extrahuji pomocí programu Balabolka nebo jednotlivě otevřu PDF v programu Sumatra a uložím jako TXT. Pokud má soubor TXT velikost 3B, znamená to, že neobsahuje žádný text ale pouze obrázky. Vyzkoušel jsem funkci PDF2TXT. Jsem uživatel Windows 10. Podle pokynů jsem si měl stáhnout instalační EXE. Když to nepůjde, měl jsem stáhnou Baidu NetDisk.exe. Program má velikost 64MB. Potom bych mohl stáhnout open source OCR program Tesserart.exe, pro které je v BasicCATu rozhraní, které se otevře až po stisknutí PDF2TXT. Rozhodl jsem se nespouštět program Baidu NetDisk.exe a najít binární soubor vytvořený od jiných autorů. Našel jsem Windows binaries: https://github.com/UB-Mannheim/tesseract/wiki Program jsem nainstaloval a když jsem jej spustil v BasicCATu na anglickém PDF tak jsem získal pouze jednotlivé JPG, které autor do PDF vložil a seznam těchto JPG. Abych získal TXT, musel jsem si nejprve přečíst nápovědu. Potom jsem požádal syna, aby mi napsal BAT soubor pro spuštění Tesserartu s jedním JPG a další BAT soubor pro spuštění Tesserartu na všech JPG umístěných v jednom adresáři. Syn to zvládl. OCR jsem vyzkoušel jak na stažených anglických a českých PDF, tak na JPG ze skeneru. Naskenoval jsem několik stránek z knihy Kapitolky z historie Petřvaldu. Projekt programu Tesseract koordinuje Google. Milan ▲ Collapse | | | Milan Condak Local time: 05:15 English to Czech TOPIC STARTER Prezentace Tesserartu | Mar 22, 2021 |
Dokončil jsem prezentaci o používání bezplatného softwaru pro rozpoznávání textu, který je obsažen v obrázcích. http://www.condak.cz/nove/2021-03/14/cs/00.html Tesseract-OCR 01 Převod obrázků na text 02 Tesseract-OCR 03 Tessdata a API 04 Převod souboru PDF 05 Text a jeho strojový překlad 06 Průběh OC... See more Dokončil jsem prezentaci o používání bezplatného softwaru pro rozpoznávání textu, který je obsažen v obrázcích. http://www.condak.cz/nove/2021-03/14/cs/00.html Tesseract-OCR 01 Převod obrázků na text 02 Tesseract-OCR 03 Tessdata a API 04 Převod souboru PDF 05 Text a jeho strojový překlad 06 Průběh OCR (animace) 07 Průběh OCR (animace) 08 ePub nebo OCR Obdobný software rozpoznává poznávací značky motorových vozidel, které mají povinnost platit dálniční poplatky. Milan ▲ Collapse | | | Milan Condak Local time: 05:15 English to Czech TOPIC STARTER Oprava názvu v titulku | Mar 23, 2021 |
Milan Condak wrote: Dokončil jsem prezentaci o používání bezplatného softwaru pro rozpoznávání textu, který je obsažen v obrázcích. http://www.condak.cz/nove/2021-03/14/cs/00.html Tesseract-OCR 01 Převod obrázků na text 02 Tesseract-OCR Všímavý čtenář si jistě všiml a ví, že "art" není "act". Dvakrát jsem v titulku zprávy chybně uvedl Tesserart místo správného názvu Tesseract. Omlouvám se. Z výše uvedeného je vidět, že přísloví "Mýlit se je lidské" je pravdivé. Ani Tesseract není bez chyby. Ikdyž některé chyby jsou opět výsledkem chyby uživatele. Stačí místo jazyka "eng" použít "ces" a místo anglických apostrofů dostanete české uvozovky. Stačí místo jazyka "ces" použít "eng" a česká písmena s diakritikou nejsou správně. Milan | | | Milan Condak Local time: 05:15 English to Czech TOPIC STARTER
|
|
Milan Condak Local time: 05:15 English to Czech TOPIC STARTER Nainstahoval jsem si TesserAct-OCR znovu | Jul 10, 2021 |
Protože mi "odešel" harddisk na pracovním notebooku, nainstahoval jsem si TesserAct-OCR znovu, tentokrát do PC. Spouštím jej opět z jednoduchého skriptu. Při hledání programu a dat ke stažení, jsem narazil na článek bloggera Karla Sýkory, který vypátral i několik grafických uživatelkých rozhraní. Doporučuje pou... See more Protože mi "odešel" harddisk na pracovním notebooku, nainstahoval jsem si TesserAct-OCR znovu, tentokrát do PC. Spouštím jej opět z jednoduchého skriptu. Při hledání programu a dat ke stažení, jsem narazil na článek bloggera Karla Sýkory, který vypátral i několik grafických uživatelkých rozhraní. Doporučuje používat program gImageReader. https://karelsykora.blog.idnes.cz/blog.aspx?c=179837 "Projekt Tesseract, převod textu do digitální podoby 1. 03. 2011 23:58:51 Mnozí z nás se jistě dostali do situace, kdy museli převést text z obrazové přílohy do digitální podoby. Je tady jeden závažný problém, většina programů, které jsou k tomu určené, jsou komerční a tedy drahé. Alternativní řešení se přímo nabízí, je to projekt Tesseract. Navíc se dá nainstalovat jak pod Windows, tak i pod operačním systémem Linux." "Tesseract nemá grafické uživatelské rozhraní (GUI), takže je potřeba nainstalovat ještě jeden program, který umožní práci s tímto programem. Mně se osvědčil program gImageReader. (je více možností volby pro GUI, na stránkách projektu se určitě dozvíte víc)" -- Byl jsem na česko-polské konferenci, na které se promítaly české-polské prezentace. Mobilem jsem několikrát vyfotil promítací plátno. Řádky textu nebyly na fotografiích zcela rovné a vodorovné. Český text byl převeden lépe než polský text. Přitom trénovaná data obou jazyků jsou srovnatelně stejně velká. Milan ▲ Collapse | | | There is no moderator assigned specifically to this forum. To report site rules violations or get help, please contact site staff » OCR program Tesserart Trados Business Manager Lite | Create customer quotes and invoices from within Trados Studio
Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.
More info » |
| Wordfast Pro | Translation Memory Software for Any Platform
Exclusive discount for ProZ.com users!
Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value
Buy now! » |
|
| | | | X Sign in to your ProZ.com account... | | | | | |