Pomocí příkazu přesměrování v mém souboru htaccess lidé, kteří do adresního řádku zadají následující ...
http://example.com/index.php
... jsou přesměrovány na ...
http://example.com/
Na všech stránkách mého webu mám také značku noindex, nofollow.
Moje otázka je, vzhledem k tomu, že přesměrování chování a meta data, bude googlebot index mé hlavní stránky (tj. Index.php), pokud můj soubor robots.txt je následující ...
User-agent: Googlebot
Allow: /index.php
Disallow: /
User-agent: *
Disallow: /
Pokud ne, jak bych měl změnit svůj soubor robots.txt tak, aby se na google indexoval pouze moje hlavní stránka a nic víc?
Díky předem!
Pokud přesměrujete na "/", ale povolíte pouze indexování "/index.php", nic nebude indexováno. "/" A "/index.php" jsou pro vás stejná stránka. Ale pro vyhledávače jsou to dvě samostatné adresy URL. Blokováním „/“, což je jediná stránka, kterou uživatelé zřejmě uvidí, blokujete celý web.
Pokud chcete mít přesnější kontrolu nad tím, co je indexováno, použijte výše uvedené metaznačky nebo použijte hlavičku HTTP x-robots-tag k řízení indexování. Konkrétně použijte X-Robots-Tag: noindex
na všech vašich stránkách kromě pro index.php. Potom není třeba používat soubor robots.txt. Někde jsem četl záhlaví HHTP je účinnější a preferovaný způsob, jak blokovat stránky před indexováním, ale v tuto chvíli nemůžu tento článek najít.
John Conde již vysvětleno , že vaše současné řešení nebude fungovat (+1), protože Googlebot vyhodnotí pravidla až poté, co již byl přesměrován, a poslouchá _Disallow: /
_ podle toho blokuje všechny adresy URL včetně vašeho kořenového adresáře/hlavní stránka poté.
Konkrétně pro Googlebot však můžete usnadnit jeho rozšíření oficiálního protokolu robots.txt (viz část Shoda vzorů uvnitř Blokování nebo odebrání stránek pomocí souboru robots.txt ), jako tak:
_User-agent: Googlebot
Allow: /$
Disallow: /
_
Znak _$
_ odpovídá konci URL, takže direktiva _Allow: /$
_ povolí jakoukoli adresu URL, která začíná názvem vaší domény, za kterým následuje nic, tj. Povolí kořenovou/hlavní stránku po je již přesměrován z index.php.
Směrnice _Disallow: /
_ zablokuje všechny ostatní adresy URL jako obvykle poté.
Právě jsem to úspěšně testoval pomocí testovacího nástroje robots.txt v nástroje pro webmastery Google (k dispozici zde Přístup prohledávače pod Konfigurace web), takže byste to mohli sami potvrdit okamžitě - prozkoumání tohoto neocenitelného výběru nástrojů/informací týkajících se SEO obecně a zejména společnosti Google je přesto velmi doporučeno!
Je to riskantní. Chcete-li se ujistit, že Google indexuje vaši domovskou stránku, postupujte takto:
User-agent: *
Allow: /index.php
Disallow: /a
Disallow: /b
...
Disallow: /z
Disallow: /0
...
Disallow: /9
Kořen "/" tedy nebude odpovídat pravidlům zakázání.
Také pokud máte AdSense nezapomeňte přidat
User-agent: Mediapartners-Google
Allow: /