it-swarm-eu.dev

Jaké databázové technologie používají velké vyhledávače?

Ví někdo, jak Google nebo Yahoo provádí vyhledávání klíčových slov proti velmi velkému množství dat? Jakou databázi nebo technologie k tomu používají?

Trvá to několik milisekund, ale mají indexované více než miliardu stránek.

32
rkosegi

Jsem si jist, že existuje kombinace věcí:

  • vážný hardware
  • hodně z toho - data jsou distribuována a replikována do mnoha uzlů a různých datových center

    • (ve skutečnosti v případě Google alespoň věřím, že mají tisíce a tisíce opravdu nízkých serverů)
  • spousta výsledků běžných dotazů je uložena do mezipaměti, všimněte si, jak předběžně naplňují potenciální vyhledávání věcí, o kterých víte, že jste nikdy předtím nehledali; předpovídají, co byste mohli hledat, a doufají, že váš výsledek již byl předem vypočítán a někde uložen do mezipaměti. V mnoha případech dělají - není mnoho vyhledávání, s nimiž byste dnes mohli na Googlu přijít a na něž se před vámi někdo neptal. Když získají novou vyhledávací frázi, pravděpodobně použijí něco jako volné textové vyhledávání - a očekával bych, že klíčová slova budou extrahována sémanticky, když je stránka poprvé prohledána, místo aby se snažili najít klíčová slova v dokumentu poté, co jste je hledali. . Samozřejmě musí tyto mezipaměti pravidelně zneplatňovat, přepočítávat pořadí stránek a distribuovat nové výsledky uložené v mezipaměti do mezipaměti - a jsem si jist, že za tím je hodně seriózního inženýrství.
21
Aaron Bertrand

Holubi .

Srdcem vyhledávací technologie Google je PigeonRank ™, systém pro hodnocení webových stránek vyvinutý zakladateli Google Larry Page a Sergey Brin na Stanfordské univerzitě:

enter image description here

Na základě průlomové práce BF Skinner, Page a Brin usoudili, že nízké náklady holubí klastry (PC) lze použít k výpočtu relativní hodnoty webových stránek rychleji než lidské editory nebo stroje algoritmy na bázi algoritmu. A zatímco společnost Google má desítky inženýrů pracujících na zlepšení všech aspektů našich služeb každý den, PigeonRank nadále poskytuje základ pro všechny naše nástroje pro vyhledávání na webu.

Proč patentovaný Google PigeonRank ™ funguje tak dobře

Úspěch PigeonRank se opírá především o vynikající vycvičitelnost domácího holuba (Columba livia) a jeho jedinečnou schopnost rozpoznat objekty bez ohledu na prostorovou orientaci. Společný šedý holub dokáže snadno rozlišit mezi položkami, které vykazují pouze nejmenší rozdíly, což je schopnost, která umožňuje vybrat relevantní webové stránky z tisíců podobných stránek.

Shromážděním hejn holubů v hustých shlucích je Google schopna zpracovat vyhledávací dotazy rychlostí nadřazenými tradičním vyhledávacím strojům, které se obvykle spoléhají na dravé ptáky, chovné slepice nebo pomalu se pohybující vodní ptáky, aby provedly své žebříčky relevance.

Když je vyhledávací dotaz odeslán společnosti Google, je směrován do datové kooperace, kde monitoruje stránky s výsledky flash rychlostí vyzařování . Když je relevantní výsledek pozorován jedním z holubů ve shluku, zasáhne ocelovou tyč potaženou gumou s zobákem, který stránce přiřadí hodnotu PigeonRank jedné. Pro každý peck se PigeonRank zvyšuje . Ty stránky, které dostávají nejvíce pecků, jsou vráceny v horní části stránky s výsledky uživatele a ostatní výsledky jsou zobrazeny v pořadí klování.

34
ypercubeᵀᴹ

Je důležité mít na paměti několik věcí o google:

  • Jejich databáze DB je proprietární BigTable - byla navržena na míru BY GOOGLE , aby přesně vyhovovala jejich potřebám

  • Jejich proprietární databáze DB je postavena na vrcholu jejich proprietárního systému souborů - Google File System - to bylo navrženo znovu BY GOOGLE , být snadno rozšiřitelný pomocí běžného komoditního hardwaru. Jak Aaron ve své odpovědi zmínil, místo velkého počtu velmi výkonných serverů má velký počet průměrných serverů.

Ukládají jednotlivé tabulky na více počítačích jako způsob, jak zrychlit přístup - jejich software ví, která data jsou na jakém počítači, a místo toho, aby rozhazoval disk, aby ho našel, může jít přímo na server s příslušnými informacemi.

19
JNK

Google nepoužívá tradiční technologii relačních databází. Vyvinula svou vlastní technologii, zmenšení velkých stolů a map. Původní výzkumné práce jsou zde: Big Table a Map/Reduce . Zajímavá je také SSTable, tabulka třídených řetězců .

Podobné technologie se nyní používají v hadoop a NoSQL databáze .

11
NimChimpsky

Přečtěte si „ In Plex: Jak Google myslí, funguje a formuje naše životy “ od Stevena Levyho. Tato kniha je fascinujícím přečtením o všech věcech Google a na vysoké úrovni diskutuje o některých technologiích a inženýrství za hledáním. Aaron to shrnul velmi dobře ve své odpovědi a Levyova kniha vám dá více podrobností o tom, jak to dokážou.

9
Todd Everett