Chtěl bych nějakým způsobem blokovat všechny vyhledávače kromě Google, Yahoo & Bing (a jejich souvisejících webů, jako je Google Images), aby nemohly procházet můj web, protože spotřebovávají hodně serveru a šířku pásma, ale nepřinášejí žádný provoz.
Je to snadno proveditelné nebo obtížné? Bylo by dobré, kdyby někdo udržoval seznam malých vyhledávačů, které by bylo možné vložit do souboru robots.txt a blokovat je.
Také si uvědomuji, že nemůžu blokovat prolézací moduly, které ignorují robots.txt nebo weby, aby tajně škrábaly a procházely, ale to není to, co chci. Chci jen zablokovat všechny Altavistas, Hotbots, Lycos (ještě existují) a prohledávače univerzitních experimentů ztrácet čas.
Co jste doposud vyzkoušeli?
Pomocí webmaster tools robots.txt generator Udělal jsem toto:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Ale netestoval jsem to.
Jak velký je problém?
Boty, o které byste se měli zajímat, jsou roboti, kteří nedodržují pravidla a předstírají, že jsou pravidelnými návštěvníky.
Provoz vyhledávače je legitimní a Dan zdůraznil, že Google také začal jako malý univerzitní projekt. Není opravdu spravedlivé diskriminovat malé lidi a z dlouhodobého hlediska to možná není chytré.
Odpověď společnosti Kinopiko bude fungovat a nástroje společnosti Google pro webmastery vám umožní vytvořit a otestovat váš robot.txt (Konfigurace stránek, Přístup prohledávače), ale myslím si, že pokud je pro vás problém provoz z pravých vyhledávačů, je možné, že váš současný hosting řešení není dobrý obchod.
Pro ty, kteří nedodržují pravidla, můžete je zkusit najít ve svých protokolech a poté je zablokovat pomocí IP.
Obecně můžete bota spatřit tím, že čte stránky příliš rychle na to, aby byly lidské.