it-swarm-eu.dev

Vyhledávací stroje procházejí soubory PDF a pokud ano, existují pravidla, která je třeba při jejich vytváření dodržovat

Web, na kterém pracuji, má v sobě několik set PDF. Nemyslím si, že jsem někdy viděl, jak se některý z nich vrátil při hledání, ale jsou zde spojeny přímo z webu. Jsou také plná klíčových slov, protože se jedná o produktové dokumenty.

Je třeba udělat něco zvláštního, abychom přiměli Google nebo jiné vyhledávací nástroje k jejich procházení?

Existují tvrdá a rychlá pravidla pro vytváření souborů PDF, která Googlu pomohou, aby se jim více líbily? Měl bych je například spustit skrz ghostscript, abych vyčistil rozbité PDF tagy, které Adobe vytvoří během generování?

22
Ben Hoffman

Google rozhodně indexuje soubory PDF a můžete hledat pouze soubory PDF přidáním filetype:pdf do vyhledávacího dotazu ( příklad ).

Řekl bych, že hlavní věci, které je třeba udělat pro optimalizaci PDF, takže je snadno indexovatelné, by byly:

  • Dejte mu smysluplný název souboru
  • Vyplňte všechny vlastnosti metadat dokumentu (název, autor, klíčová slova atd.)
  • Ujistěte se, že váš PDF je složen ze skutečného textu a ne naskenovaných obrázků
  • Ujistěte se, že máte dobrý obsah se správným používáním nadpisů, stejně jako by to byl dokument HTML

Další tipy naleznete Optimalizace PDF Dokumenty a Jedenáct tipů pro optimalizaci PDF pro vyhledávače

17
Dan Diplo

Nejsem si jistý o jiných vyhledávačích, ale pokud jde o Google, hlavním pravidlem by bylo nevyloučit je pomocí robots.txt

Toto bylo jejich počáteční oznámení o podpoře PDF vyhledávání.

1
intlect

Stejně jako to, aby web kompatibilní nemohl ublížit vašemu SEO, nemůže zpřístupnit váš PDF přístupný. Vestavěná kontrola přístupu Adobe zdaleka není dokonalá, ale začátkem bude alespoň stanovení těchto oblastí.

Pravděpodobně trávím 5 minut na každé 4 nebo 5, většinou textové PDF, které vkládáme online. Čas plyne rovnoměrně v závislosti na počtu stránek a na tom, jak jsou tyto stránky složité.

Předpokládejme, že máte Adobe Acrobat Pro k provedení úprav:

  • Spusťte kontrolu úplnosti přístupu. (Rychlá kontrola je pro mě docela zbytečná)
  • Aktualizujte meta informace ve vlastnostech dokumentu (klíčová slova, předmět, jazyk atd.)
  • Zkontrolujte, zda jsou přidány značky
  • Ujistěte se, že je text označen jako text, obrázky jako obrázky, pozadí jako pozadí
  • Označte jako pozadí zbytečné chmýří (jako dekorace nebo design)
  • K obrázkům přidejte dobrý alternativní text
  • Ujistěte se, že v pořadí čtení je text řádně uspořádán
  • Na panelu nástrojů obsahu se ujistěte, že text není duplikován nebo není správně přeložen
  • Na skenovaných stránkách používejte skener OCR

Pro pokročilejší úpravy, jako jsou tabulky a opravdu podivné chyby Adobe, používáme plugin s názvem CommonLook. CommonLook udělá práci, ale nesnáším ji téměř stejně jako nenávidím nástroje Adobe.

Seznamte se s nástrojem Order Up Reading Order, na panelu nástrojů Tagy, na panelu nástrojů Reading Order a na panelu nástrojů Obsah. Moje práce vyžaduje, aby dokumenty byly plně kompatibilní, než vyjde na web, ale kdokoli by mohl mít prospěch z jednoduchého označování a vlastností dokumentu.

1
MrChrister