it-swarm-eu.dev

Jak nakonfigurujete soubor robots.txt tak, aby umožňoval procházení webu s výjimkou několika adresářů?

Jaké je nejlepší počáteční nebo obecné nastavení pro soubor robots.txt, který umožňuje vyhledávačům procházet webem, ale možná omezit několik složek?

Existuje obecné nastavení, které by se mělo vždy používat?

7
Mike

Nástroje Google Webmaster mají sekci nazvanou „Přístup prohledávače“

Tato část umožňuje velmi snadno vytvořit soubor robots.txt

Například povolit všechno kromě blogu složku nazvanou test your robot.txt by vypadalo něco jako

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

Nejlepší konfigurace, pokud nemáte žádné zvláštní požadavky, není vůbec nic. (I když možná budete chtít přidat alespoň prázdný soubor, abyste se vyhnuli vyplňování protokolů chyb 404s.)

Chcete-li blokovat adresář na webu, použijte klauzuli 'Zakázat':

User-agent: *
Disallow: /example/

Existuje také klauzule „Povolit“, která přepíše předchozí klauzule „Zakázat“. Pokud jste tedy zakázali složku „example“, můžete povolit složku jako „example/foobar“.

Nezapomeňte, že soubor robots.txt nezabrání nikomu, kdo navštíví tyto stránky, pokud chce, takže pokud by některé stránky měly zůstat v tajnosti, měli byste je skrýt před nějakým druhem ověření (tj. Uživatelským jménem/heslem).

Druhou direktivou, která bude pravděpodobně v mnoha souborech robots.txt, je „Sitemap“, která určuje umístění vašeho XML souboru Sitemap, pokud jej máte. Dejte jej na řádek sám:

Sitemap: /sitemap.xml

oficiální stránka robots.txt obsahuje mnohem více informací o různých možnostech. Ale obecně bude drtivá většina stránek potřebovat jen velmi malou konfiguraci.

1
DisgruntledGoat

Zde je vše, co potřebujete vědět o soubor robots.txt

0
Jason