v pondělí 11. dubna 2005
Vyhledávač Jyxo v některých dotazech určitá slova ignoruje. Zajímalo mě, která to jsou.
Vlastně jsem chtěl reagovat na článek Michala Krutiše Česká stop words a uvést to na pravou míru, ale on už to sám opravil. Nevadí, byl to dobrý podnět pro můj malý výzkum. Pojmem stopslovo nebo stopword se označuje takové slovo z uživatelova dotazu, na které vyhledávač při hledání nebere ohled, protože by to nemělo moc smysl a akorát by se zkomplikoval výpočet. Zde mohu odkázat (via právě Michal Krutiš) na anglická stopslova ignorovaná Googlem.
Z českých vyhledávačů se k ignorování slov hlásí pouze Jyxo (zda to dělá Seznam nebo Morfeo, není známo), a tak jsem zkusil, která slova Jyxo v dotazu ignoruje. Jestli chcete vidět, jak to vypadá, můžete si zkusit dotaz Pavel a Petr. Jyxo říká:
Slovo a nenese příliš informaci, zčásti jej ignoruji.
Kladením různě složitých dotazů se mi podařilo vymámit tuto hlášku na následující dvoupísmenná česká slova:
aj by co cz do ho je ji ke na od po se si to ty tu ve za ze že
a všechna slova jednopísmenná. Důležité je ale upozornit, že se tato slova v Jyxu neignorují vždy -- rozhodnutí, zda bude slovo ignorováno, se provádí pravděpodobně dynamicky podle velikosti invertovaných indexů slov (to je pouze můj dohad), a tak jsou výše uvedená slova většinou hledána normálně. Někdy se musíte opravdu snažit, abyste ignorační hlášku u některých slov dostali.
Zatímco pro Google se nedoporučuje uvádět stopslova do titulků, protože by tam prý pouze zabírala místo, při optimalizaci pro Jyxo pravděpodobně stopslova nehrají vůbec žádnou roli. Takže to asi není k ničemu, jenom jsem si tak hrál.
Pokud vám vyhledávač slovo zaignoruje, ale vy jej stejně chcete hledat, můžete do dotazu před to slovo napsat plusko. Například v dotazu Petr +a Pavel se slovo "a" neignoruje ani na Jyxu, ani na Googlu.
Další články jsou v archivu.
Nejnovější příspěvky na hlavní stránce blogu.