Yuhůův weblog o webu

28. 9. 2007

Fulltext: co je index a co je databáze, přesměrování

Tuhle neoficiální terminologii používám, když se občas někomu snažím vysvětlit, jak je možné, že se jeho stránky nedají v Googlu nebo v Seznamu najít. Ale lidi si to stále pletou.

Když se někdy mluví o počtu stránek, kterou ten který vyhledávač zvládá prohledávat, tak obvykle postrádám informaci, zda se jedná o velikost databáze nebo indexu. Přitom se ta dvě čísla mohou dost lišit. Například u Seznamu byla databáze v dubnu asi pětkrát větší než index.

Nějaké příklady chování indexu a databáze: Tak třeba když stránka při návštěvě vrací chybu 500 (chyba serveru), fulltext Seznamu udělá to, že takovou stránku vyřadí z indexu (minimálně až do příští návštěvy robota), protože nechce, aby lidi proklikávali na stránku, která pravděpodobně nefunguje. Taková stránka ale zůstává v databázi (pouze je označena jako nefunkční). Teprve když nefunguje velmi dlouho, z databáze vypadává. U Googlu to funguje podobně, i když v případě Google o vypadávání z databáze nevím nic jistě.

Podobně stránka, která je přesměrovaná (vrací odpověď 301 nebo 302), zůstává v databázi, ale z indexu zpravidla vypadává. Když A přesměrovává na B (A -> B), tak se v indexu místo stránky A ocitá stránka B. (Stránka B je samozřejmě i v databázi.) Proč stránka A zůstává v databázi? Aby se odkazy, které na stránku A směřují, mohly přičíst ve prospěch stránky B. Takhle to funguje na Googlu, na Seznamu a i na jiných vyhledávačích. V čem se Seznam donedávna lišil, je situace, kdy stránka B (cíl přesměrování) ještě není v indexu. V takovém případě stránka A mizela z indexu (jsouc přesměrovávaná), ale B tam ještě nebyla. To trvalo, dokud se B nezaindexovala. To už teď zřejmě neplatí. Všimnul jsem si, že když stránka A přesměrovávaná na stránku B, která ještě není v indexu, nezpůsobí to jako dříve vypadnutí stránky A z indexu, takže tam není žádné "okno". Nevysvětluju to moc složitě? Jak přesně se v takové situaci nyní chová Google, to nevím, ale očekávám stejné chování.

Jiná věc související s přesměrováním je přenos ranků. (Ranky myslím nějaké skalární funkce nad množinou stránek, uložené v databázi, které se mohou podílet na řazení výsledků a řízení robota.) Zatímco Google v případě zjištění přesměrování přenáší rank stránky A na stránku B téměř okamžitě, Seznam rank přímo nepřenáší vůbec, pouze nepřímo. V případě fulltextu Seznamu jde o částečně záměrné chování, protože jsem vždycky měl za to, že adresy by se neměly měnit moc často. Nevidím problém v tom, že ranky mají při přesměrování určitou prodlevu, než se z těch mraků dat "přepočítají" na novou adresu.

(Omlouvám se SEO namakancům, pro které je tento článek pouze objevováním kol.)

trvalý odkaz

Yuhůův weblog píše Yuhů Yuhů. Kontakt. Weblog patří pod Jak psát web.