it-swarm-eu.dev

Existuje index IP adres používaných indexovacími roboty?

Mám stránku, která má minimální provoz, ale při zásahu nastavím statická oznámení. Nyní chci, aby se roboti ignorovali, takže to, co teď dělám, je přidání robotů, které vidím, do seznamu „bez oznámení“.

Existuje referenční seznam IP adres používaných indexovacími roboty?

např. seznam jako:

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ může být to, co hledáte.

5

Všechny vyhledávače používají obrovské množství IP adres. Místo toho se budete chtít podívat na řetězec uživatelského agenta. Podívejte se na tato stránka pro dobrý seznam všech prohledávačů.

V PHP by něco takového fungovalo:

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

Proč to prostě nevložíte do souboru robots.txt?

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

Tímto způsobem nebudete muset lovit roboty. Vsadil bych se, že Google, Yahoo a MSN mají stovky robotů a pravděpodobně mají různé IP adresy a nové neustále vytvářené. Přidání výše uvedeného by mělo udělat totéž pro stránku vašeho souboru bez všech potíží.

1
Ben Hoffman

Existuje nějaký kód pro rozpoznání robotů na http://ekstreme.com/phplabs/search-engine-authentication (stejně jako článek v centru nápovědy Google na http://www.google) .com/support/webmasters/bin/answer.py? answer = 8055 o ověření Googlebot). Existuje také nějaký kód na http://ekstreme.com/phplabs/crawlercontroller.php , který lze použít k rozpoznání prolézacích modulů, které můžete snadno rozšířit a rozpoznat tak „dobré“ prolézací moduly i spamové to teď pozná.

Obecně je důležité nespoléhat se na jméno user-agent nebo IP adresu samotnou, protože někteří user-agenti mohou používat běžní uživatelé a některé IP adresy mohou být sdíleny.

To znamená, že pokud to používáte pouze pro e-mailová oznámení, pravděpodobně bych prostě ignoroval jednoduché známé vzorce v uživatelském agentu a žil jsem s falešnými pozitivy a falešnými negativy. Zkontrolujte v souborech protokolu nejběžnější prolézací moduly, které jsou na vašem webu aktivní, a zkontrolujte jedinečnou část názvu uživatelského agenta (stačí použít „googlebot | Slurp | msnbot | bingbot“).

1
John Mueller

Tak či onak, pokud máte vážné problémy s filtrováním robotů, budete muset implementovat také nějaký místní seznam. Někdy se zdá, že IP jsou posedlí webem, který spravuji. Univerzitní projekty, špatně implementované roboty, které se zdají experimentální, ale obecně nejsou uznávány, takové druhy věcí.

Také: Cuil bot (Twiceler) je ďábel.

1
Thomas

Můžete přistupovat k useragentu? Zdá se mi, že je to lepší způsob, jak zjistit, kdo je skutečný uživatel, a co je to bot - je odolnější vůči legitimním prohledávačům, kteří mění adresy, a pokud je cokoli maskováno jako bot, pravděpodobně nebudete chtít dostat e-mail tak jako tak.

0
Cebjyre

Zkuste to...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH, Bud

0
Bud