it-swarm-eu.dev

Struktura a PDF soubor?

Pro malý projekt musím analyzovat soubory PDF a vzít si jejich konkrétní část (jednoduchý řetězec znaků). K tomu bych chtěl použít python a našel jsem několik knihoven, které jsou schopny dělat to, co chci v některých ohledech.

Ale teď po několika výzkumech, jsem přemýšlel, co je skutečná struktura souboru PDF, ví někdo, zda existuje spec nebo nějaké vysvětlení kdekoli online? Našel jsem odkaz na Adobe, ale zdá se, že je to mrtvý odkaz :(

57

Zde je odkaz na referenční materiál společnosti Adobe

http://www.Adobe.com/devnet/pdf/pdf_reference.html

Měli byste vědět, že PDF je pouze o prezentaci, nikoli struktuře. Parsování nebude snadné.

38
minty

Když jsem poprvé začal pracovat s PDF, našel jsem odkaz PDF velmi těžké se orientovat. co Adobe nazývá struktura dokumentu je struktura objektu a ne struktura souboru. To se také nachází v Syntaxi. Popis operátorů je ukryt v Příloze A - velmi užitečný pro pochopení toho, co se děje v obsahových tocích. Pokud jste někdy měli bolest při práci s barevnými prostory, zjistíte, že jsou skryté v grafice! Doufejme, že vám tyto ukazatele pomohou najít věci rychleji než já.

Pokud používáte okna, pdftron CosEdit vám umožní procházet strukturu objektu, abys mu porozuměl. K dispozici je zdarma demo k dispozici, které vám umožní zkoumat soubor, ale ne uložit.

22
danio

Našel jsem GNU Úvod do PDF aby mi pomohl porozumět struktuře. Zahrnuje snadno čitelný příklad PDF soubor který popisují podrobně.

Další užitečné odkazy:

20
Jeff Moser

Zde je surový odkaz PDF 1.7 , a zde je článek popisující strukturu souboru PDF . Pokud používáte Vim, pdftk plugin je dobrým způsobem, jak prozkoumat dokument ve stále méně poněkud méně syrovém formátu a samotný nástroj pdftk utility (a jeho zdroj GPL) je skvělým způsobem dráždit dokumenty od sebe.

10
jmah

Snažím se udělat skoro totéž. Odkaz PDF je velmi obtížný dokument ke čtení. Tento tutoriál je lepší start myslím.

7
Noran

To může pomoci vrhnout trochu světla: (Ze strany 11 ze souboru PDF32000.book)

Syntaxe PDF se nejlépe chápe jako čtyři části, jak je znázorněno na obrázku 1:

• Objekty. Dokument PDF je datová struktura složená z malé množiny základních typů datových objektů V článku 7.2, "Lexikální konvence", se popisuje znaková sada používaná pro zápis objektů a další syntaktické prvky. V článku 7.3 "Objekty" se popisuje syntaxe a základní vlastnosti objektů. Dílčí bod 7.3.8, "Streamové objekty", poskytuje úplné podrobnosti o nejsložitějším datovém typu, datovém toku .

• Struktura souborů. Struktura souboru PDF určuje, jak jsou objekty uloženy v souboru PDF, jak jsou Zpřístupněny a jak jsou aktualizovány. Tato struktura je nezávislá na sémantice objektů. Sub - Klauzule 7.5 "Struktura souborů" popisuje strukturu souborů. Podbod 7.6 „Šifrování“ popisuje mechanismus na úrovni souboru , Který chrání obsah dokumentu před neoprávněným přístupem.

• Struktura dokumentů. Struktura dokumentu PDF specifikuje, jak jsou základní typy objektů používány pro Reprezentující komponenty dokumentu PDF: stránky, písma, anotace atd. Článek 7.7, "Struktura dokumentu" popisuje celkovou strukturu dokumentu; pozdější doložky se zabývají podrobnou sémantikou komponent.

• Streamování obsahu. PDF stream obsahu obsahuje posloupnost instrukcí popisujících vzhled Stránky nebo jiné grafické entity. Tyto instrukce, i když jsou také reprezentovány jako objekty, jsou koncepčně odlišné od objektů, které představují strukturu dokumentu a jsou popsány samostatně. Dílčí doložka 7.8, „Streamování obsahu a zdroje obsahu“, pojednává o tocích obsahu PDF a jejich přidružených zdrojích.

Vypadá to, že navigace v souboru PDF bude vyžadovat o něco více než snahu o absolvování.

6
Josh Albert

Didier má k dispozici nástroj pro analýzu PDF:

http://didierstevens.com/files/software/pdf-parser_V0_4_3.Zip

nebo zde:

http://blog.didierstevens.com/programs/pdf-tools/ , které katalogizovalo několik souvisejících nástrojů pro analýzu PDF.

Další nástroj je zde:

http://mshahzadlatif.wordpress.com/2011/09/28/view-pdf-structure-using-Adobe-acrobat-or-a-free-tool-called-pdfxplorer/

3
Peter Teoh

Pokud chcete analyzovat PDF pomocí Pythonu, podívejte se na PDFMINER . To je nejlepší knihovna analyzovat PDF soubory do data.

3
codingscientist

Extrahování textu z PDF je obtížný problém, protože PDF má takovou strukturu orientovanou na rozvržení. Můžete vidět dokumenty a zdrojový kód mého sotva úspěšného pokusu o CPAN (moje implementace je v Perlu). Datová struktura PDF je velmi chladná a dobře navržená, ale je snazší jej psát než číst.

2
Chris Dolan

Jeden způsob, jak získat nějaké stopy, je vytvořit soubor PDF skládající se z prázdné stránky. Mám CutePDF Writer na svém počítači, a udělal prázdný dokument Wordpad jedné stránky. Vytištěno do souboru .pdf a poté pomocí souboru Poznámkový blok otevřete soubor .pdf.

Dále použijte kopii tohoto souboru a odstraňte řádky nebo bloky textu, které by mohly být zajímavé, a pak znovu načtěte v Acrobat Reader. Byl byste překvapen, jak málo informací je zapotřebí k vytvoření jednoho dokumentu PDF.

Snažím se vytvořit tabulku pro vytvoření formuláře PDF z kódu.

2
Daniel Kim

Chcete-li začít číst o podrobnostech a struktuře souborů PDF, potřebujete referenční příručku PDF. Doporučuji začít s verzí 1.7.

Na oknech jsem použil volný nástroj PDF Analyzátor pro zobrazení vnitřní struktury souborů PDF. To vám pomůže při porozumění při čtení referenční příručky.

 enter image description here

0
juFo