Yuhůův weblog o webu

v úterý 16. listopadu 2004

Skrytá změna architektury Google

Google ve středu na hlavní stránce oznámil, že indexuje přes osm miliard dokumentů, což je nárůst na dvojnásobek. Důležité ale je, že přitom přelezl magickou hranici 232 dokumentů (= 4 miliardy a nějaké drobné). Číslo dvě na třicátou druhou se dá vyjádřit dvaatřicetibitovým bajtem. Na ídéčko s hodnotou osm miliard už ale potřebujete bajtů 33, takže v praxi spíše 48 nebo 64. Co vypadá jako postup o jednu číslici, je ve skutečnosti zásadní skok.

Tento článek už píšu vlastně potřetí. Měl jsem jej rozepsaný dvakrát, ale pokaždé jsem ho raději smazal "pro nedostatek důkazů". Teď si za to nadávám, protože jsem mohl být za proroka, změna visela ve vzduchu dobrý měsíc. No nevadí, příště si to vynahradím. Teď prorokuji menší taneček ještě do konce roku, až se zaktualizuje databáze linků (ta už dlouho stagnuje).

K očekávání nějaké změny mě vedlo zejména to, že Google od června používá nový typ crawlera. Jak se nový robot liší od starého, je vidět z logu:

A teď to asi spustili. Možná to má také mediální souvislost s novým microsoftím vyhledávačem, který byl spuštěn o den později a který má v indexu pět miliard stránek (pět je více než čtyři, ale méně než osm). Skoro se mi zdá, jako by to bylo ze strany Google nasazeno příliš rychle. Spousta nových výsledků z Google se mi zdá být jenom "supplemental results" (staré stránky z bočního indexu) nebo URL bez titulku a popisku.

Co znamená velikost indexu

Google se už jednou o přechod magické hranice 232 pokusil. Myslím, že někdy loni na podzim nebo v zimě. Ale po čase se znovu vrátili těsně nad čtyři miliardy (možná se tehdy přechod nepovedl).

Počet indexovaných dokumentů je jeden z důležitých faktorů určujících kvalitu vyhledávače. Zejména mediálně je to velmi citlivá veličina, protože novináři milují jednoduchá číslíčka a kdo má cifru větší, ten jako že vyhrál. Tak prosté to ale není.

Jenom pro srovnání -- množství česky psaných stránek (URL), které má smysl indexovat, odhaduji v tuto chvíli na 25 až 30 miliónů. Google z nich zná nyní asi 18 M, Jyxo 47 M, Morfeo 54 M. Celkový počet česky psaných existujících URL, na které vede odkaz, bude někde kolem 120 M (sprostý odhad), většina je ale duplicitní balast.

Právě menší gůglí velikost českého indexu považuji paradoxně za základní důvod, proč Google v českých stránkách hledá lépe nebo minimálně stejně dobře jako na češtinu specializované vyhledávače Jyxo nebo Morfeo. Google má prostě v indexu méně balastu.

trvalý odkaz

Yuhůův weblog píše Dušan Janovský, janovsky@gmail.com