it-swarm-eu.dev

Ukládá Google robots.txt mezipaměť?

Před jedním týdnem jsem na jeden z mých stránek přidal soubor robots.txt, který měl zabránit robotu Googlebot v pokusu načíst určité adresy URL. Tento víkend však vidím, jak Googlebot načítá tyto přesné adresy URL.

Ukládá Google mezipaměť robots.txt a pokud ano, měl by?

17
Quog

Důrazně doporučujeme zaregistrovat váš web pomocí Google Search Console (dříve Nástroje pro webmastery Google) . V části konfigurace webu je sekce přístupu prohledávače, která vám řekne, kdy byl váš soubor robots.txt stažen. Tento nástroj také poskytuje mnoho podrobností o tom, jak prohledávače vidí váš web, co je blokováno nebo nefunguje a kde se objevujete v dotazech na Googlu.

Z toho, co mohu říct, Google stáhne robots.txt často. Web Search Console vám také umožní konkrétně odstranit adresy URL z indexu, takže můžete odstranit ty, které nyní blokujete.

13
danivovich

Vytrvat. Změnil jsem se z robots.txt na meta noindex, nofollow. Aby meta fungovala, musí být nejprve odblokovány blokované adresy v robots.txt.

Udělal jsem to brutálně odstraněním souboru robots.txt (a jeho vyřazením z webmastera google).

Proces odstranění souboru robots.txt, jak je vidět v nástroji pro webmastery (počet stránek je zablokován), trvalo dokončení 10 týdnů, z čehož společnost Google odstranila většinu pouze během posledních 2 týdnů.

3
araldh

Dokumentace Google uvádí , že obvykle cache robots.txt denně ukládá, ale pokud ji dostanou, může ji používat déle chyby při pokusu o aktualizaci.

Požadavek robots.txt je obecně uložen v mezipaměti až na jeden den, ale může být uložen v mezipaměti déle v situacích, kdy není možné aktualizovat verzi v mezipaměti (například kvůli timeoutům nebo 5xx chybám). Odezvu v mezipaměti mohou sdílet různé prolézací moduly. Google může prodloužit nebo zkrátit životnost mezipaměti na základě záhlaví HTTP s maximálním věkem Cache-Control.

2

Ano, Google bude samozřejmě mezipaměť robots.txt do určité míry - nebude ji stahovat pokaždé, když se chce podívat na stránku. Jak dlouho to ukládá, nevím. Pokud však máte nastavenou dlouhou hlavičku Expires, Googlebot ji může nechat pro kontrolu souboru mnohem déle.

Dalším problémem může být nesprávně nakonfigurovaný soubor. V Nástrojích pro webmastery, které danivovich navrhuje, je robots.txt kontrola. To vám řekne, které typy stránek jsou blokovány a které jsou v pořádku.

2
DisgruntledGoat

Ano. Říkají, že jej obvykle aktualizují jednou denně, ale někteří navrhli, že to mohou zkontrolovat i po určitém počtu zásahů na stránku (100?), Takže rušnější weby jsou kontrolovány častěji.

Viz https://webmasters.stackexchange.com/a/29946 a video, které @DisgruntedGoat sdílel výše http://youtube.com/watch?v=I2giR-WKUfY =.

1
studgeek

Z toho, co vidím v uživatelsky přístupné mezipaměti, kterou dělají, je třeba zadat adresu URL vašeho souboru robots.txt do Vyhledávání Google a poté kliknout na malou zelenou šipku rozevíracího seznamu a kliknout na ' cached “(viz obrázek níže), získáte tak nejnovější verzi této stránky ze serverů Googles.

enter image description here

1
sam