it-swarm-eu.dev

Ovládání internetového archivu kromě „Disallow /“?

Existují nějaké mechanismy pro kontrolu toho, co archiv Internetu archivuje na webu? Vím, že zakážu všechny stránky mohu přidat :

User-agent: ia_archiver
Disallow: /
  1. Mohu říct botovi, že chci, aby procházel můj web jednou za měsíc nebo jednou za rok?

  2. Mám web/stránky, které nejsou/nejsou správně archivovány, protože prostředky nebyly vyzvednuty. Existuje způsob, jak sdělit botu internetového archivu, jaké prostředky potřebuje, pokud to chce chytit web?

13
artlung

Poznámka : Tato odpověď je stále zastaralá.

Největším přispěvatelem do internetové sbírky internetového archivu byl Alexa Internet. Materiál, který Alexa prohledává pro své účely, byl věnován IA o několik měsíců později. Přidání pravidla zákazu uvedeného v otázce nemá na tyto procházení vliv, ale Wayback je „zpětně“ ctí (odepření přístupu, materiál bude stále v archivu - měli byste vyloučit Alexův robot, pokud opravdu chcete, aby váš materiál byl mimo). internetového archivu).

Mohou existovat způsoby, jak ovlivnit Alexiny procházky, ale nejsem s tím obeznámen.

Od doby, kdy IA vyvinula svůj vlastní prolézací modul (Heritrix), začali provádět vlastní procházení, ale ty mají tendenci být cílenými procházeními (provádějí volební procházení pro Knihovnu Kongresu a prováděly národní procházení pro Francii a Austrálii atd.). Nezabývají se druhem trvalého celosvětového procházení, které Google a Alexa chovají. Největším procházením IA byl speciální projekt procházení 2 miliard stránek.

Protože tyto procházení probíhá podle plánů, které vyplývají z faktorů specifických pro projekt, nemůžete ovlivnit, jak často navštíví váš web, nebo , pokud navštíví váš web.

Jediným způsobem, jak přímo ovlivnit, jak a kdy IA prochází váš web, je použít jejich Archive-It službu. Tato služba umožňuje určit vlastní procházení. Výsledná data budou (nakonec) začleněna do webové kolekce IA. Jedná se však o placenou službu předplatného.

8
Kris

Většina vyhledávačů podporuje směrnici „Zpoždění procházení“, ale nevím, zda IA. Můžete to zkusit:

User-agent: ia_archiver
Crawl-delay: 3600

To by omezilo zpoždění mezi požadavky na 3600 sekund (tj. 1 hodinu), nebo ~ 700 požadavků za měsíc.

Nemyslím si, že # 2 je možné - IA bota chytne aktiva, jakmile to uzná za vhodné. Může mít limit velikosti souboru, aby se zabránilo použití příliš velkého úložiště.

2
DisgruntledGoat