Jaké je nejlepší počáteční nebo obecné nastavení pro soubor robots.txt, který umožňuje vyhledávačům procházet webem, ale možná omezit několik složek?
Existuje obecné nastavení, které by se mělo vždy používat?
Nástroje Google Webmaster mají sekci nazvanou „Přístup prohledávače“
Tato část umožňuje velmi snadno vytvořit soubor robots.txt
Například povolit všechno kromě blogu složku nazvanou test your robot.txt by vypadalo něco jako
User-agent: *
Disallow: /Test
Allow: /
Nejlepší konfigurace, pokud nemáte žádné zvláštní požadavky, není vůbec nic. (I když možná budete chtít přidat alespoň prázdný soubor, abyste se vyhnuli vyplňování protokolů chyb 404s.)
Chcete-li blokovat adresář na webu, použijte klauzuli 'Zakázat':
User-agent: *
Disallow: /example/
Existuje také klauzule „Povolit“, která přepíše předchozí klauzule „Zakázat“. Pokud jste tedy zakázali složku „example“, můžete povolit složku jako „example/foobar“.
Nezapomeňte, že soubor robots.txt nezabrání nikomu, kdo navštíví tyto stránky, pokud chce, takže pokud by některé stránky měly zůstat v tajnosti, měli byste je skrýt před nějakým druhem ověření (tj. Uživatelským jménem/heslem).
Druhou direktivou, která bude pravděpodobně v mnoha souborech robots.txt, je „Sitemap“, která určuje umístění vašeho XML souboru Sitemap, pokud jej máte. Dejte jej na řádek sám:
Sitemap: /sitemap.xml
oficiální stránka robots.txt obsahuje mnohem více informací o různých možnostech. Ale obecně bude drtivá většina stránek potřebovat jen velmi malou konfiguraci.
Zde je vše, co potřebujete vědět o soubor robots.txt