Není vždy možné extrahovat text ze souboru PDF pomocí běžného kopírování. Často jsou stránky takových dokumentů naskenované obsahy jejich papírových verzí. Pro převedení takových souborů na plně upravitelné textové údaje se používají speciální programy s funkcí optického rozpoznávání znaků (OCR).
Taková řešení jsou velmi obtížně realizovatelná a proto stojí spoustu peněz. Pokud potřebujete pravidelně rozpoznávat text s PDF, je vhodné zakoupit příslušný program. Ve vzácných případech by bylo logičtější používat jednu z dostupných služeb online s podobnými funkcemi.
Obsah
Samozřejmě, soubor funkcí OCR online služeb je mnohem omezenější v porovnání s plnými desktopovými řešeními. Ale s těmito prostředky můžete pracovat buď zdarma, nebo za poplatek. Hlavní věc spočívá v tom, že odpovídající webové aplikace zvládnou svůj hlavní úkol, a to rozpoznávání textu.
Společnost pro vývoj služeb je jedním z vůdců v oblasti rozpoznávání optických dokumentů. ABBYY FineReader pro Windows a Mac je výkonné řešení pro konverzi PDF do textu a další práci s ním.
Webový protějšek programu, samozřejmě, je v jeho funkčnosti horší. Nicméně služba dokáže rozpoznat text ze skenů a fotografií ve více než 190 jazycích. Podporuje konverzi souborů PDF do dokumentů Slovo , Excel atd.
Online služba ABBYY FineReader Online
Tato služba se pravděpodobně vyznačuje nejpřesnějšími algoritmy rozpoznávání textu na obrázcích a souborech PDF. Bohužel, jeho volné využití je omezeno na pět stránek zpracovaných za měsíc. Chcete-li pracovat s rozsáhlejšími dokumenty, musíte si zakoupit roční předplatné.
Pokud je však funkce OCR velmi zřídka potřebná, ABBYY FineReader Online je skvělá volba pro extrakci textu z malých souborů PDF.
Jednoduchá a pohodlná služba pro digitalizaci textu. Bez nutnosti registrace, zdroj vám umožní rozpoznat 15 úplných PDF stránek za hodinu. Free OCR plně spolupracuje s dokumenty ve 46 jazycích a bez oprávnění podporuje tři formáty exportu textu - DOCX, XLSX a TXT.
Při registraci je uživatel schopen zpracovat vícestranové dokumenty, ale volný počet těchto stránek je omezen na 50 jednotek.
Pro oprávněné uživatele je posloupnost akcí poněkud odlišná.
Pokud potřebujete extrahovat text z malého dokumentu PDF, můžete bezpečně použít nástroj popsaný výše. Chcete-li pracovat s velkými soubory, budete muset ve Free Online OCR kupovat další symboly nebo se uchýlit k jinému řešení.
Úplně bezplatná služba OCR, která umožňuje extrahovat text z prakticky všech grafických a elektronických dokumentů, jako je DjVu a PDF. Prostředek neomezuje velikost a počet rozpoznatelných souborů, nevyžaduje registraci a nabízí širokou škálu souvisejících funkcí.
NewOCR podporuje 106 jazyků a dokáže správně zpracovat i nekvalitní skenování dokumentů. Ruční výběr oblasti pro rozpoznávání textu je možné na stránce souboru.
Nástroj je vhodný a rozpozná všechny znaky v dostatečně vysoké kvalitě. Zpracování každé stránky importovaného dokumentu PDF však musí být spuštěno nezávisle a zobrazeno v samostatném souboru. Můžete samozřejmě okamžitě zkopírovat výsledky rozpoznávání do schránky a sloučit je s ostatními.
Vzhledem k výše uvedenému nuanci je však obtížné získat značné množství textu pomocí nástroje NewOCR. Služba se vyrovnává s malými soubory "s třeskem."
Jednoduchý a srozumitelný prostředek pro digitalizaci textu umožňuje rozpoznávat dokumenty ve formátu PDF a vytisknout výsledek do souboru TXT. Počet stránek není omezen. Jediným omezením je, že velikost vstupního dokumentu by neměla překročit 5 megabajtů.
Pokud stačí vybírat text z PDF a konečné formátování není vůbec důležité, OCR.Space je dobrá volba. Jediný dokument musí být "jednojazyčný", jelikož není ve službě uznáno dva nebo více jazyků současně.
Viz též: Bezplatné analogy programu FineReader
Při vyhodnocování online nástrojů uvedených v článku je třeba poznamenat, že ABBYY FineReader Online zpracovává funkci OCR nejpřesněji a nejpřesněji. Pokud je pro vás důležitá maximální přesnost rozpoznávání textu, je vhodné tuto konkrétní možnost zvážit. Ale platit za to, s největší pravděpodobností, musí také.
Pokud potřebujete digitalizovat drobné dokumenty a jste připraveni opravit chyby ve službě sami, doporučujeme použít NewOCR, OCR.Space nebo Free OCR.