Yuhůův weblog o webu

v pátek 28. září 2007

Fulltext: co je index a co je databáze, přesměrování

Tuhle neoficiální terminologii používám, když se občas někomu snažím vysvětlit, jak je možné, že se jeho stránky nedají v Googlu nebo v Seznamu najít. Ale lidi si to stále pletou.

Když se někdy mluví o počtu stránek, kterou ten který vyhledávač zvládá prohledávat, tak obvykle postrádám informaci, zda se jedná o velikost databáze nebo indexu. Přitom se ta dvě čísla mohou dost lišit. Například u Seznamu byla databáze v dubnu asi pětkrát větší než index.

Nějaké příklady chování indexu a databáze: Tak třeba když stránka při návštěvě vrací chybu 500 (chyba serveru), fulltext Seznamu udělá to, že takovou stránku vyřadí z indexu (minimálně až do příští návštěvy robota), protože nechce, aby lidi proklikávali na stránku, která pravděpodobně nefunguje. Taková stránka ale zůstává v databázi (pouze je označena jako nefunkční). Teprve když nefunguje velmi dlouho, z databáze vypadává. U Googlu to funguje podobně, i když v případě Google o vypadávání z databáze nevím nic jistě.

Podobně stránka, která je přesměrovaná (vrací odpověď 301 nebo 302), zůstává v databázi, ale z indexu zpravidla vypadává. Když A přesměrovává na B (A -> B), tak se v indexu místo stránky A ocitá stránka B. (Stránka B je samozřejmě i v databázi.) Proč stránka A zůstává v databázi? Aby se odkazy, které na stránku A směřují, mohly přičíst ve prospěch stránky B. Takhle to funguje na Googlu, na Seznamu a i na jiných vyhledávačích. V čem se Seznam donedávna lišil, je situace, kdy stránka B (cíl přesměrování) ještě není v indexu. V takovém případě stránka A mizela z indexu (jsouc přesměrovávaná), ale B tam ještě nebyla. To trvalo, dokud se B nezaindexovala. To už teď zřejmě neplatí. Všimnul jsem si, že když stránka A přesměrovávaná na stránku B, která ještě není v indexu, nezpůsobí to jako dříve vypadnutí stránky A z indexu, takže tam není žádné "okno". Nevysvětluju to moc složitě? Jak přesně se v takové situaci nyní chová Google, to nevím, ale očekávám stejné chování.

Jiná věc související s přesměrováním je přenos ranků. (Ranky myslím nějaké skalární funkce nad množinou stránek, uložené v databázi, které se mohou podílet na řazení výsledků a řízení robota.) Zatímco Google v případě zjištění přesměrování přenáší rank stránky A na stránku B téměř okamžitě, Seznam rank přímo nepřenáší vůbec, pouze nepřímo. V případě fulltextu Seznamu jde o částečně záměrné chování, protože jsem vždycky měl za to, že adresy by se neměly měnit moc často. Nevidím problém v tom, že ranky mají při přesměrování určitou prodlevu, než se z těch mraků dat "přepočítají" na novou adresu.

(Omlouvám se SEO namakancům, pro které je tento článek pouze objevováním kol.)

trvalý odkaz

Přidat nebo číst komentáře, počet: číslo

Yuhůův weblog píše Dušan Janovský známý jako Yuhů. Kontakt. Weblog patří pod Jak psát web. počitadlo toplist