it-swarm-eu.dev

Blokování všech vyhledávačů kromě těch velkých

Chtěl bych nějakým způsobem blokovat všechny vyhledávače kromě Google, Yahoo & Bing (a jejich souvisejících webů, jako je Google Images), aby nemohly procházet můj web, protože spotřebovávají hodně serveru a šířku pásma, ale nepřinášejí žádný provoz.

Je to snadno proveditelné nebo obtížné? Bylo by dobré, kdyby někdo udržoval seznam malých vyhledávačů, které by bylo možné vložit do souboru robots.txt a blokovat je.

Také si uvědomuji, že nemůžu blokovat prolézací moduly, které ignorují robots.txt nebo weby, aby tajně škrábaly a procházely, ale to není to, co chci. Chci jen zablokovat všechny Altavistas, Hotbots, Lycos (ještě existují) a prohledávače univerzitních experimentů ztrácet čas.

2
Craig

Co jste doposud vyzkoušeli?

Pomocí webmaster tools robots.txt generator Udělal jsem toto:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Ale netestoval jsem to.

3
delete

Jak velký je problém?

Boty, o které byste se měli zajímat, jsou roboti, kteří nedodržují pravidla a předstírají, že jsou pravidelnými návštěvníky.

Provoz vyhledávače je legitimní a Dan zdůraznil, že Google také začal jako malý univerzitní projekt. Není opravdu spravedlivé diskriminovat malé lidi a z dlouhodobého hlediska to možná není chytré.

Odpověď společnosti Kinopiko bude fungovat a nástroje společnosti Google pro webmastery vám umožní vytvořit a otestovat váš robot.txt (Konfigurace stránek, Přístup prohledávače), ale myslím si, že pokud je pro vás problém provoz z pravých vyhledávačů, je možné, že váš současný hosting řešení není dobrý obchod.

3
Sylver

Pro ty, kteří nedodržují pravidla, můžete je zkusit najít ve svých protokolech a poté je zablokovat pomocí IP.

Obecně můžete bota spatřit tím, že čte stránky příliš rychle na to, aby byly lidské.

1
Sruly