Yuhůův weblog o webu

28. 10. 2008

BadRank, seznamte se

BadRankem budete potrestáni, pokud odkazujete na špatné stránky. BadRank také dostanete, pokud odkazujete na stránky s vysokým BadRankem. Není dobré mít vysoký BadRank.

Není všechno Pagerank, co vyhledávače počítají. Dnes bych vám, moji milí čtenáři, rád představil myšlenku "špatného ranku", kterému se říká BadRank. Myšlenka to zdaleka není nová, píše se o ní asi deset let. Když ale vidím některé odkazové šarády na českém webu (patičky, hurá-katalogy, ber-kde-ber agregátory), mám za to, že tady o BadRanku asi leckdo neslyšel. Pět vět o Badranku uvádí Radim Smička ve své knížce o SEO a o ničem dalším v češtině nevím.

Výpočet zkusím vysvětlit bez vzorečků. Napřed ale předpokládám, že přibližně víte, jak se počítá Pagerank. Každá stránka dostává Pagerank jednak tím, že na ni odkazují další stránky, jednak má sama od sebe nějaký mrňavoučký přirozený pagerank. (Tomuhle mrňavoučkému pageranku se někdy říká zdrojový pagerank, jindy výchozí vektor E.) Na PageRank je pro mě dobré, když na mě ostatní odkazují, čím více, tím lépe. A čím vyšší Pagerank mám, tím lépe pro mě.

směr šíření PageRanku je stejný jako směr odkazu

Jsi odpovědný za to, kam odkazuješ

BadRank funguje dost podobně jako Pagerank. Počítá se také z odkazové sítě, také pro každé URL zvlášť, také iteračně v několika kolech a také s určitým útlumem (dampening factor). V čem se BadRank od PageRanku liší:

směr šíření BadRanku je opačný než směr odkazu

Nechci zabíhat do detailů a vzorečků. Můžete si je dohledat. <promagory velké="spíš jo">Bacha, existují dvě různé verze výpočtu badranku. Jedna dělí příchozí badrank počtem odkazů na odkazující stránce, druhá verze dělí počtem odkazů na stránku odkazovanou. První verze je logičtější, ale neumím dokázat, že pak výpočet vždy konverguje a tuším, že veškerý BadRank pak nemá konstantní součet. První verze je hezká také tím, že si odhad BadRanku může indexér vyhledávače může udělat okamžitě při prvním zpracování stránky, protože hned ví, kam dokument odkazuje. Druhá verze je velmi inverzní klasickému PageRanku, ale není úplně logická. </promagory>

Nevím nebo nechci prozradit, jak se BadRank přesně používá. Ale můžete si to představit tak, že se třeba nějak lineárně zkombinuje do výsledného ranku, který se používá na řazení výsledků.

Odkud pramení zlo

Zdroj Badranku je řídký

Pozorný čtenář si všimnul, že zdrojový BadRank (tedy onen vektor E) vytváří administrátoři vyhledávače. To je v prostředí automatických megavýpočtů dost zvláštní myšlenka. Ale není nesmyslná. Administrátoři opravdu někdy potřebují těm automatům vysvětlit, které stránky považují za dobré a které za špatné. Jak to tedy funguje: administrátor ručně prochází databázi a špatným stránkám nastaví výchozí badrank na nějaké číslo, třeba 100 bodů, těm méně špatným třeba na 20 bodů. Pak se občas pustí výpočet, který z tohoto zdrojového BadRanku určí výsledný BadRank každé stránky v indexu.

vypočítaný BadRank je rozdělen rovnoměrněji

Problém je v tom, že aby vypočítaný BadRank o něčem vypovídal, nesmí být ten ručně stanovený výchozí vektor moc řídký. Když máte v indexu třeba 200 miliónů stránek, tak aby to něco rozumně počítalo, potřebujete mít aspoň 50 tisíc stránek označených jako špatných. Jinak naprosté většině stránek vylezou z badranku nuly (což záleží taky na dampening faktoru) a distribuce kladného badranku bude dost náhodná a shlukovitá. 50 tisíc stránek není úplně málo, ale ručně se to časem zvládnout dá.

V praxi je potřeba mít ještě další zdrojový vektor badranku kromě ručního. Jednoduchá myšlenka říká, že pornostránky nebo stránky o násilí nejsou nic moc a že ten, kdo na takové stránky odkazuje, taky není hodný andílek. Takže stačí sestavit slovník jedovatých slov a každou stránku obodovat jedním až pěti bodíky podle jejich výskytů. To je rychlý automatický zdrojový vektor badranku napříč celým webem. Není sice moc kvalitní, ale není řídký, takže se s ním dá pěkně počítat. A sečíst s tím ručním.

Co je špatná stránka

Obecně se jako špatné stránky uvádějí stránky nějak manipulující s vyhledáváním. Cloaking, nesmyslné texty a tak podobně. To je denní chleba administrátorů vyhledávačů. Ale definice špatné stránky může být mnohem širší. Zdrojový BadRank se dá stanovit jakékoliv stránce, na kterou není dobré z vyhledávače posílat lidi. Dobrým příkladem stránky, která není výslovně podvodná, ale je vhodná jako zdroj BadRanku, jsou esemeskové psychotesty. Každý, kdo na ně odkazuje, dobře tuší, jaká je to zlodějina, takže si zaslouží kus výsledného BadRanku.

Zajímavý důsledek následného přepočtu je ten, že se ona nastavená penalizace poctivěji rozloží mezi sousední stránky. Když tedy administrátorovi něco unikne nebo je někdy naopak moc přísný, zas tolik to nevadí.

Přikázání

trvalý odkaz

Yuhůův weblog píše Yuhů Yuhů. Kontakt. Weblog patří pod Jak psát web.