Extrahujte text ze souborů PDF a obrázků


Máte dokument PDF, ze kterého byste chtěli získat celý text? Co obrazové soubory naskenovaného dokumentu, které chcete převést do upravitelného textu? To jsou některé z nejčastějších problémů, které jsem viděl na pracovišti při práci se soubory.

V tomto článku budu hovořit o několika různých způsobech, jak můžete vyjít z pokusu o extrahování textu z PDF nebo z obrazu. Výsledek extrakce se bude lišit v závislosti na typu a kvalitě textu v PDF nebo obrázku. Také se vaše výsledky budou lišit v závislosti na použitém nástroji, takže je nejlepší vyzkoušet co nejvíce možných možností, abyste získali co nejlepší výsledky.

Extrahujte text z obrázku nebo PDF

Nejjednodušší a nejrychlejší způsob, jak začít, je zkusit online službu extrahování textu ve formátu PDF. Ty jsou obvykle zdarma a mohou vám poskytnout přesně to, co hledáte, aniž byste museli instalovat nic na vašem počítači. Zde jsou dva, které jsem použil s velmi dobrými až vynikajícími výsledky:

ExtractPDF

extractpdf

s>je bezplatným nástrojem k získání obrázků, textu a písem ze souboru PDF. Jediným omezením je, že maximální velikost souboru PDF je 10 MB. To je trochu malé; takže pokud máte větší soubor, vyzkoušejte některé z níže uvedených metod. Vyberte soubor a klikněte na tlačítko Odeslat soubor. Výsledky jsou obvykle velmi rychlé a po klepnutí na kartu Text byste měli vidět náhled textu.

download text

přidána výhoda, že extrahuje obrazy ze souboru PDF také v případě, že potřebujete ty! Celkově funguje online nástroj skvěle, ale dostal jsem se do několika PDF dokumentů, které mi dávají zábavný výstup. Text je extrahován v pohodě, ale z nějakého důvodu bude mít po každém slově řádek! Není to obrovský problém pro krátký soubor PDF, ale určitě problém pro soubory se spoustou textů. Pokud se vám to stane, vyzkoušejte další nástroj.

Online OCR

Online OCR obvykle pracoval pro dokumenty, které nebyly správně převedeny pomocí nástroje ExtractPDF , takže je dobré vyzkoušet obě služby, abyste zjistili, které z nich vám dávají lepší výkon. Online OCR má také některé hezčí funkce, které se hodí pro každého, kdo má velký PDF soubor, který potřebuje převést text pouze na několik stránek než na celý dokument.

První věc, kterou chcete udělat, je jít a vytvořit zdarma účet. Je to trochu nepríjemné, ale pokud nevytvoříte účet zdarma, bude pouze částečně převést váš PDF spíše než celý dokument. Také místo toho, abyste mohli pouze nahrát pouze 5 MB dokumentu, můžete nahrát až 100 MB na soubor s účtem.

online ocr

, vyberte jazyk a poté vyberte typ výstupních formátů, které chcete pro převedený soubor. Máte několik možností a můžete si vybrat více než jednu, pokud se vám líbí. Pod Dokumentem pro více stránekmůžete vybrat Čísla stráneka vybrat pouze stránky, které chcete převést. Poté vyberte soubor a klikněte na tlačítko Převést!

Po konverzi budete přeneseni do sekce Dokumenty (pokud jste přihlášeni), kde uvidíte, kolik volných bezplatných stránek máte a odkazy ke stažení konvertovaných souborů. Zdá se, že máte pouze 25 stránek zdarma denně, takže pokud budete potřebovat víc, budete muset trochu počkat nebo koupit více stránek.

Online OCR provedla skvělou práci konverzi můj PDF, protože byl schopen zachovat aktuální rozložení textu. V mém testu jsem vzal dokument Word, který používal kuličky, různé velikosti písma atd. A přeměnil ho na PDF. Pak jsem použil službu Online OCR, aby jej převedl zpět do formátu Word a byl asi 95% stejný jako originál. To je docela působivé pro mě.

Navíc, pokud chcete konvertovat obrázek na text, může to Online OCR udělat stejně snadno jako extrahování textu ze souborů PDF.

Zdarma Online OCR

Vzhledem k tomu, že jsme mluvili o obrázku na text OCR, dovolte mi zmínit další dobré webové stránky, které fungují opravdu dobře na obrázcích. Online OCR zdarma byl velmi dobrý a velmi přesný při extrakci textu ze zkušebních obrázků. Vzal jsem pár fotografií z mého iPhonu stránek z knih, brožur atd. A byl jsem překvapen, jak dobře to bylo možné převést na text.

free online ocr

>

Vyberte soubor a klepněte na tlačítko Nahrát. Na další obrazovce je několik možností a náhled obrázku. Můžete ho oříznout, pokud nechcete OCR celou věc. Pak stačí kliknout na tlačítko OCR a převedený text se zobrazí pod náhledem obrázku. Také nemá žádné omezení, což je opravdu pěkné. Kromě služeb online existují dva freeware konvertory PDF, které chci zmínit v případě, že potřebujete software, který běží na vašem počítači místně. konverze. Se službami online budete vždy potřebovat připojení k internetu a to nemusí být možné pro všechny. Nicméně jsem si všiml, že kvalita konverzí z freewarových programů byla výrazně horší než kvalita webových stránek.

A-PDF Text Extractor

A-PDF Text Extractor je freeware, který dělá poměrně dobrou práci při extrakci textu ze souborů PDF. Po stažení a instalaci klikněte na tlačítko Otevřít a vyberte soubor PDF. Poté klikněte na položku Extrahovat text a spusťte proces.

apdf extractor

Požádá vás o umístění pro uložení textového výstupního souboru a poté začne extrahovat . Můžete také kliknout na tlačítko Volba, které umožňuje vybrat pouze některé stránky, které chcete extrahovat, a typ extrakce. Druhá možnost je zajímavá, protože vytahuje text v různých rozvrženích a stojí za to vyzkoušet všechny tři, aby viděli, které vám dávají nejlepší výstup.

Pilot PDF2Text

/ s>provádí ok extrakci textu. Nemá žádné možnosti; stačí přidat soubory nebo složky, převést a naděkovat na to nejlepší. Některé soubory PDF fungovaly dobře, ale pro většinu z nich existovaly četné problémy.

pdf2text

Stačí kliknout na Přidat soubory a pak kliknout na Převést. Jakmile je konverze dokončena, klepnutím na tlačítko Procházet otevřete soubor. Během používání tohoto programu se budete lišit, takže neočekávejte mnoho.

Také stojí za zmínku, že pokud jste v podnikovém prostředí nebo můžete získat ruce na kopii aplikace Adobe Acrobat z práce, můžete skutečně získat mnohem lepší výsledky. Aplikace Acrobat není samozřejmě zdarma, ale má možnosti převodu formátu PDF do formátu aplikace Word, Excel a HTML. To také dělá nejlepší práci zachování struktury původního dokumentu a konverze složitého textu.

Jak extrahovat z AutoCADu souřadnice do *.txt souboru

Související příspěvky:


13.11.2014