it-swarm-eu.dev

Jaké je nejlepší a nejjednodušší řešení OCR?

Chtěl bych naskenovat velké množství papírů, které jsem ležel, s co nejmenšími problémy. Chtěl bych je převést na obrázky pomocí Simple Scan a poté je převést na text pomocí OCR. Existuje dobrá aplikace OCR s grafickým uživatelským rozhraním, které mi dá dobré výsledky stiskem tlačítka?

82
Bou
  • GOCR od je OCR (optický znak) Rozpoznávání) program. Převádí naskenované obrázky textu zpět do textových souborů.

  • CLARA je další dobrá grafická možnost.

  • OCRAD z je možné použít OCR jako samostatná aplikace konzoly nebo jako backend k jiným programům.

  • KOOKA z je aplikace KDE, ale funguje dobře, navíc musíte nainstalovat skutečné OCR programy, jako je GOCR a OCRAD.Po instalaci Kooka a OCR programů musíte přesunout Kooka na místo instalace OCR, aby bylo možné převést JPEG do textu.

  • OCRFeederfrom je analýza rozložení dokumentu a systém rozpoznávání optických znaků.

  • Tesseractfrom je obslužný program příkazového řádku a je velmi jednoduchý na použití. Můžete nainstalovat jazyk balíček tesseract-ocr-eng od zde .

Podívejte se na toto stránka .

Poznámka:
Spuštění tesseract goto terminálu a zadejte následující

tesseract imagefile.tif outputfile.txt

Tesseract umí číst pouze soubor TIFF - pokud máte JPEG nebo PDF nebo cokoli jiného), musíte jej převést. Také přípona názvu souboru musí být .tif, nikoli .tiff , jinak dojde k chybám tesseract.

73
karthick87

Existuje několik populárních nástrojů příkazového řádku OCR, které můžete použít (nejsem si jistý, zda mají GUI):

  • Tesseract ( ReadMe , FAQ ) (Python)

    K dispozici také pro: Tesseract .NET , Tesseract iOS

    OCR Engine, který byl vyvinut v laboratořích HP v letech 1985 až 1995 ... a nyní ve společnosti Google. Tesseract je pravděpodobně nejpřesnější open source dostupný OCR engine.

    Používání:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Open-source rozpoznávání znaků. Převádí naskenované obrázky textu zpět na textové soubory. GOCR lze použít s různými front-endy, což velmi usnadňuje přenos do různých operačních systémů a architektur. Může otevřít mnoho různých obrazových formátů a jeho kvalita se denně zlepšuje.

  • OCRopus ™ ( FAQ ) (napsáno v Pythonu, NumPy a SciPy)

    Systém OCR se zaměřením na využití strojového učení ve velkém měřítku pro řešení problémů v analýze dokumentů, zahrnující analýzu rozvržení připojitelných prvků, rozpoznávání připojitelných znaků, statistické modelování přirozeného jazyka a vícejazyčné schopnosti.

    Stroj OCRopus je založen na dvou výzkumných projektech: vysoce výkonný rozpoznávač rukopisu vyvinutý v polovině 90. let a nasazený americkým sčítáním lidu, a nové vysoce výkonné metody analýzy rozložení.

    OCRopus je vývoj sponzorovaný společností Google a je původně určen pro vysoce výkonné a velkoobjemové úsilí o převod dokumentů. Očekáváme, že to bude také vynikající OCR systém pro mnoho dalších aplikací.

  • Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C++/CLI)

    Tesseract je C++ open source OCR engine. Tessnet2 je .NET Assembly, která vystavuje velmi jednoduché metody pro OCR. Tessnet2 je pod licencí Apache 2 (jako tesseract), což znamená, že ji můžete používat tak, jak chcete, součástí komerčních produktů.

Několik dalších: ABBYY CLI OCR pro Linux , Asprise OCR

Úplnější seznam najdete na: Seznam softwaru pro optické rozpoznávání znaků na Wikipedii

Viz také: wanghaisheng/awesome-ocr - Kurátorský seznam slibných zdrojů OCR v GitHubu.

11
kenorb

Gscan2PDF

OCR na více stránkách PDF nebo naskenované dokumenty

Toto je pravděpodobně nejjednodušší způsob. Gscan2pdf je grafický nástroj, který vám umožní nejen skenovat soubory, ale také je importovat a provádět OCR. Nainstalujte gscan2pdf odtudInstall gscan2pdf , z Ubuntu Software Center nebo spuštěním tohoto příkazu v terminálu:

Sudo apt-get install gscan2pdf
  • Spusťte gscan2pdf
  • Importovat pdf (Ctrl + O)
  • Volitelné: Nástroje> Vyčistit
  • Zvolte Nástroje> Uložit OCR (Ctrl + S)

Gscan2PDF může používat přizpůsobitelné OCR enginy, výchozí je tesseract-ocr

Můžete zvážit výběr vhodného jazyka. V takovém případě budete muset nainstalovat tesseract-ocr-LANG package, kde LANG je třípísmenný kód jazyka ISO 639-2. Právě teď máte 108 jazyků na 16,04 repo.

10
mxdsp

linux-intelligent-ocr-solution

odmítnutí odpovědnosti - Jsem úzce spojen s vývojem tohoto řešení opensource

Lios umí převádět tisk na text pomocí skeneru nebo fotoaparátu.

Může také vytvářet text ze naskenovaných obrázků z jiných zdrojů, jako jsou Pdf, Image nebo Folder obsahující obrázky.

Programu je dána úplná dostupnost pro zrakově postižené.

Protože jsem úzce spojen - rád bych zpětnou vazbu.

9
Nalin.x.Linux

Jen proto, že to funguje velmi pěkně a určitě by mělo být v seznamu:

gimageReader
Příklad ze snímku obrazovky:

enter image description here

Je v repozitáři (odpověděl na 18.10, ale používal to věky)

6
Jacob Vlijm

Nejlepší a nejjednodušší cesta tam je použít pypdfocr nemění pdf. pypdfocr je zde python odkaz na modul zde.

pypdfocr your_document.pdf

Na konci budete mít další your_document_ocr.pdf tak, jak chcete, s textem, který lze prohledávat. Aplikace nemění kvalitu obrázku. Přidáním překryvného textu se bit trochu zvětší.

Myslím, že příkaz je docela jednoduchý, že nevyžaduje žádné GUI. Možná je instalace pypdfocru trochu podrobnější:

Sudo apt install tesseract-ocr 
pip install pypdfocr 

Aktualizace 3. listopadu 2018:

pypdfocr již není podporováno od roku 2016 a všiml jsem si některých problémů kvůli tomu, že jsme se nezachovali. ocrmypdf ( modul provádí neobvyklou práci a lze ji použít takto:

ocrmypdf in.pdf out.pdf

Instalovat:

pip install ocrmypdf

nebo

apt install ocrmypdf
4

Právě jsem měl úspěch (do 16.04) s pdfocr.rb . Toto je uvedeno na buntu wiki

Zde je ppa , ale úložiště pro 16.04 není aktualizováno. Skript Ruby výše od githubu však stále funguje s 16.04.

Můžete si ji stáhnout z Githubu. Budete potřebovat nainstalované následující balíčky:

Ruby tesseract-ocr pdftk exactimage

poté provedl spustitelný soubor pdfocr.rb a spustil:

./pdfocf.rb -i source.pdf -o output.pdf

Volitelně můžete použít -l LANG parametr. V takovém případě budete muset nainstalovat tesseract-ocr-LANG package, kde LANG je třípísmenný kód jazyka ISO 639-2. Právě teď máte 108 jazyků na 16,04 repo.

3
user75505

gscan2pdf obsahuje 3 různé OCR motory. Můžete skenovat přímo do programu nebo importovat PDF do programu. Zjistil jsem, že motor Tesseract funguje skvěle a velmi snadno se používá

1
Vince West