Věc jménem robots.txt budete potřebovat, pokud provozujete web či blog. Je to soubor, který říká robotům (hlavně vyhledávačům) jak mají zacházet s vašim webem při procházení a indexaci obsahu. Můžete s jeho pomocí říci robotům, že někam jít nemají (ale nepočítejte s tím, že to spolehlivě dodrží). Ale také třeba jak často mají chodit (pokud to daný robot podporuje), abyste trochu ulehčili vašemu přetíženému systému.
Robots.txt pro @365tipu najdete snadno, stejně jako pro každý jiný web – 365tipu.cz/robots.txt. Pohledem do něj zjistíte, že robots.txt se používá i pro sdělení kde se nachází mapa webu používaný vyhledávači (sitemap, sitemap.xml). A také, pokud se nad tím trochu zamyslíte, že robots.txt může často prozradit, kde se na webu nacházejí „zajímavé“ věci.
Z uvedeného plyne, WordPress.com umí robots.txt, což je dobrá zpráva, zejména poté co zjistíte, že nemůžete používat Google Analytics, nemůžete dát přihlašovací formulář k e-mailingu do článku ani do widgetu a je tu řada dalších omezení (v placené verzi už samozřejmě ne, takže logiku to má). Je ale dobré vědět, že nad ním nemáte kontrolu, tvoří si ho sám, stejně jako sitemap soubor(soubory).
O robots.txt je toho na webu k dispozici mnoho, ať už jde třeba o www.robotstxt.org (neaktualizované asi tak od roku 2007), nebo řady článků a nápověd, takže určitě není problém si je najít a případně hlouběji nastudovat. Těžko doporučit, ale docela slušný přehled je třeba v The Robots Exclusion Protocol (REP)
Co zásadního potřebujete vědět o robots.txt
- Robots.txt mít můžete, není nikde řečeno, že ho mít musíte
- Roboti a další havěť zpracovávající váš web se robots.txt může, ale také nemusí řídit
- Robots.txt nezabrání tomu, aby z vašeho webu něco nebylo zaindexováno. Jeden z nejčastějších omylů (pokud chcete vědět víc, tak Medio blog a Robots.txt neslouží k zákazu indexace stránek dobře poradí)
- Každý robot se může chovat s ohledem na věci v robots.txt uvedené jinak
- Přehled robotů, které robots.txt využívají najdete na www.robotstxt.org/db.html (otázka je, jak je udržovaný)
- Můžete ho vytvářet ručně, stejně jako vám v tom může pomáhat nějaký software. Každopádně je to čistý textový soubor, nic sofistikovaného
- V nápovědě u Google týkající se robots.txt najdete nejenom hodně dalších užitečných informací, ale také to, že v Google Webmaster Tools je testovací nástroj na robots.txt
- Jiný testovací nástroj najdete například na tool.motoricerca.info/robots-checker.phtml. Mimochodem, neuznává Allow direktivu a neumí https.
- Robots.txt je vždy umístěn v „rootu“ (nejzákladnější složce) vašeho webu
- Crawl-delay direktiva, umožňující nastavit jak dlouho robot čeká do dalšího požadavku, není podporována všemi roboty. U Google toto například musíte nastavit v Google Webmaster Tools
- Sitemap direktiva určuje kde je umístěn jeden (či více) sitemap.xml souborů (o těch ale někdy jindy)
- Host direktiva umožňující určit jaká je preferovaná doména pro za-indexování obsahu také není podporována všemi roboty
TIP: Co je to sitemap.xml, k čemu to slouží a jak s tím mám zacházet vám prozradí vše o sitemapách. A hodit se bude Jak dostat váš web do Google pro zahrnutí ve vyhledávání
Co je vhodné zdůraznit samostatně
Velmi často se stává, že si firma nechá udělat web a pak se diví, že se neobjevuje (není indexován) ve vyhledávači. První co je v tomto případě vhodné udělat je kontrola, jestli náhodou v robots.txt nezůstalo něco z testování – něco co vyhledávačům říká „neindexuj mě“. Tedy něco jako následující dva řádky (užitečné pokud vyvíjíte a zprovozňujete web a nechcete aby byl indexován):
User-agent: *
Disallow: /
A ještě je dobré vědět, že případné indexování ovlivňují i META značky a HTML značky, které jsou uvedený v jednotlivých stránkách. Ať už jde o rel=“nofollow“ nebo přímo META v podobě Robots. Ale i zde platí, že i když uvedete <META NAME=“ROBOTS“ CONTENT=“NOINDEX,NOFOLLOW“>, nemusí se tím případný robot vůbec řídit.
Robots.txt je hodně starý (od roku 1994) a byť se v průběhu existence dočkal různých rozšíření a doplňků, nic revolučního od něj nečekejte. Docela dobrý přehled o robots.txt najdete třeba v Improving on Robots Exclusion Protocol, což je víceméně oznámení rozšíření původního protokolu, které vzniklo v roce 2008.
Nepřehánějte to s velikostí robots.txt, někteří roboti se s tím nevyrovnají. Třeba Google v minulosti uvedl, že načte pouze 500 KB z robots.txt. Ale popravdě, není dost možné si představit co byste do 500 KB+ velkého robots.txt vlastně chtěli dát.
TIP: Best Practices for Setting Up Meta Robots Tags and Robots.txt od Search Engine Journal je rozhodně dobré čtení na tohle téma v angličtině
Novinka [03.07.19] ::: Google vypustil do světa parser i specifikaci robots.txt jako Open Source a zároveň některé doposud existující součástí specifikace vypustil z důvodu nepoužívání či nadbytečnosti. Podrobnosti hledejte v Robots.txt Specifications, na GitHubu v google/robotstxt a v A note on unsupported rules in robots.txt (vypouští se hlavně noindex, nofollow a crawl-delay), Další vhodné čtení viz A deep dive into the implications of the robots.txt RFC
Novinka [11.09.19] ::: Google rozšiřuje možnosti identifikace odkazů a mění funkčnost nofollow – týká se využití v rel parametru odkazu a vedle nofollow (co už nebude znamanet, že ho nemá robot následovat) jsou novinkou rel=“ugc“ a rel=“sponsored“
PPS: Snad jsem na nic opravdu podstatného k robots.txt nezapomněl. Pokud ano, tak klasicky platí – napište, doplním a tak.