it-swarm-eu.dev

Jak spolehlivě detekovat roboty vyhledávacích strojů na webových stránkách asp.net?

Jaký je nejlepší způsob detekce aktivity generované boty (kliknutí/návštěvy stránek) atd. Na webu asp.net? Máme web, kde sledujeme potenciální zákazníky generované na externích webech, sledujeme IP uživatele, který generuje potenciální zákazníky, ale vidíme mnoho potenciálních zákazníků generovaných společností Google a dalšími vyhledávacími roboty. Jaký je nejlepší způsob, jak tuto aktivitu filtrovat. Slyšel jsem o testování řetězců uživatelských agentů a filtrování na základě známých IP adres, které jsou k dispozici jako výpisy dat z různých zdrojů, nejsem si jistý, který je nejlepší použít.

Děkuju.

2
user1081

Stejně jako @ Kinopiko řekl, Bots, zvláště ty nejlepší, jako je google nebo bing, nechávají jasný UserAgent.

Nevím, jak váš kód vypadá, takže vám nemohu říct, co dělat, ale najít UserAgent v Asp.Net se podíváte na Request.UserAgent v libovolném WebForm, CodeBehind nebo MVC Controller.

2
Sruly

Omlouváme se, ale nemám ponětí o webových stránkách asp.net, ale jakýkoli seriózní vyhledávač vám pošle řetězec uživatelských agentů, který vám řekne, že je to bot, a to by mělo být k dispozici ve vašem souboru protokolu. Další prozradí, že hledají /robots.txt.

Moje dáma vypadá takto (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

Pokud se podíváte do zdrojového kódu awstats, najdete něco lepšího než výše.

0
delete