Bots? Nechte mě být!
10 04 08 - 13:01 Nedávno jsem dělal optimalizaci pro roboty pro server s větším počtem stránek. Problém byl v tom, že onen web se doslova prohýbal pod náporem robotů (neboli bots, crawlers).
To se často stává pokud jsou stránky generovány dynamicky. Aplikace může generovat velký počet odkazů, přičemž mnohé z nich servírují jen lehké odvary původní webové stránky. Příkladem jsou faceted/guided navigace či diskuzní fóra. Úplně nejhorší je, když se od celkového
počtu dotazů odvíjí vaše výdaje za hosting. To pak stačí, aby se na váš web zatoulal
některý z agresivnějších vyhledávačů a máte vymalováno. Do ruk se mi dokonce dostal případ, kdy 98% "návštěvníků", tvořily právě roboti. Ti byly v milliónech dynamických stránek doslova ztraceni a co bylo ještě horší - neměly čas se věnovat těm hodnotným stránkám.
Ten poměr robotů a návštěvníků by měl být spíše opačný. Návštěvnost robotů by měla být jednociferná, tedy < 10%, hodně ovšem závisí na struktuře webu a jeho dynamičnosti. Dnešní vyhledávače dokaží optimalizovat frekvenci s kterou váš web navštíví podle toho, jak často na něm spatří změny.
U neměných stránek to může trvat týdny než se na váš web opět podívají. U dynamických stránek to mohou být dny a u zpravodajských webů i hodiny. Stačí zadat nějaký běžnější termín na Google News a objeví se odkazy staré jen pár minut. Zrovna jsem měl štěstí - burza na google.cz mi vrátila 4 minuty starý článek.
Zde je seznam patnácti nejběžnějších robotů. Ve druhém sloupci uvádím, jaký byl jejich podíl z celkového počtu požadavků všech robotů. Jde o vzorek jednoho dne. Distribuce se v různé dny a u různých stránek může lišit. Uvedená názvy robotů jsou jména, kterými se tito roboti sami identifikují při komunikaci s vašemi stránkami. Pokud se někdo zabývá analýzou logů, tak tato jména jsou uvedena v položce User-Agent.
| Googlebot | 52.3% |
| Yahoo!+Slurp | 17.4% |
| Yeti | 5.8% |
| Sogou | 5.4% |
| NaverBot | 4.0% |
| Yahoo!+Slurp+China | 2.5% |
| Baiduspider | 2.4% |
| VoilaBot | 2.0% |
| ConveraCrawler | 1.9% |
| Twiceler | 1.6% |
| YodaoBot | 1.1% |
| psbot | 0.8% |
| Exabot | 0.5% |
| Feedfetcher-Google | 0.4% |
| msnbot | 0.4% |
Optimalizace pro roboty pak spočívá ve využívání následujících nástrojů:
- robots.txt - jde o textový soubor umístěný v horním adresaři vašich stránek (např. http://www.optimalizace-vyhledavace.cz/robots.txt - v mém případě prázdný
. Soubor má standardizovaný formát a je akceptován téměř všemi vyhledávači. Jednotlivé řádky zakazují přístup robotů k adresám s daným formátem. Takovéto odkazy by roboti vůbec neměly navštívit. Zde je hezký příklad a zde můžete nalézt více o dané problematice. - robots metatag - jde o HTML metatag umístěný v hlavičce <HEAD> stránky. Například <meta name="robots" content="noindex,follow"> říká vyhledávačům, aby stránku neindexovali (a tudiž i nevraceli ve výsledcích), ale aby dál následovali odkazy na této stránce. Bohužel různé vyhledávače interpretují meta robots různě a mnohé je ignorují. Pokud máte tu možnost, tak raději použijte robots.txt.
- nofollow atribut - tento atribut je přímo součástí odkazu (<a href="http://www.optimalizace-vyhledavace.cz/" rel="nofollow">SEO/</a>) a zakazuje vyhledávači daný odkaz následovat. To ovšem neznamená, že cílová stránka nebude ve výsledcích. Pravděpodobně existují jiné odkazy na tutéž stánku, z nichž mnohé jsou povoleny. Atribut nofollow se dnes používá spíše na směrování PageRank(u) správným směrem, tzv. PageRank Sculpting.
Ale o tom až někdy příště...
žádný komentář
Trackback link: