TIP#106: robots.txt? K čemu něco takového je? A proč je to užitečné?

Věc jménem robots.txt budete potřebovat, pokud provozujete web či blog. Je to soubor, který říká robotům (hlavně vyhledávačům) jak mají zacházet s vašim webem při procházení a indexaci obsahu. Můžete s jeho pomocí říci robotům, že někam jít nemají (ale nepočítejte s tím, že to spolehlivě dodrží). Ale také třeba jak často mají chodit (pokud to daný robot podporuje), abyste trochu ulehčili vašemu přetíženému systému.

Robots.txt pro @365tipu najdete snadno, stejně jako pro každý jiný web – 365tipu.cz/robots.txt. Pohledem do něj zjistíte, že robots.txt se používá i pro sdělení kde se nachází mapa webu používaný vyhledávači (sitemap, sitemap.xml). A také, pokud se nad tím trochu zamyslíte, že robots.txt může často prozradit, kde se na webu nacházejí „zajímavé“ věci.

Z uvedeného plyne, WordPress.com umí robots.txt, což je dobrá zpráva, zejména poté co zjistíte, že nemůžete používat Google Analytics, nemůžete dát přihlašovací formulář k e-mailingu do článku ani do widgetu a je tu řada dalších omezení (v placené verzi už samozřejmě ne, takže logiku to má). Je ale dobré vědět, že nad ním nemáte kontrolu, tvoří si ho sám, stejně jako sitemap soubor(soubory).

O robots.txt je toho na webu k dispozici mnoho, ať už jde třeba o www.robotstxt.org (neaktualizované asi tak od roku 2007), nebo řady článků a nápověd, takže určitě není problém si je najít a případně hlouběji nastudovat. Těžko doporučit, ale docela slušný přehled je třeba v The Robots Exclusion Protocol (REP)

Co zásadního potřebujete vědět o robots.txt

Robots.txt mít můžete, není nikde řečeno, že ho mít musíte
Roboti a další havěť zpracovávající váš web se robots.txt může, ale také nemusí řídit
Robots.txt nezabrání tomu, aby z vašeho webu něco nebylo zaindexováno. Jeden z nejčastějších omylů (pokud chcete vědět víc, tak Medio blog a Robots.txt neslouží k zákazu indexace stránek dobře poradí)
Každý robot se může chovat s ohledem na věci v robots.txt uvedené jinak
Přehled robotů, které robots.txt využívají najdete na www.robotstxt.org/db.html (otázka je, jak je udržovaný)
Můžete ho vytvářet ručně, stejně jako vám v tom může pomáhat nějaký software. Každopádně je to čistý textový soubor, nic sofistikovaného
V nápovědě u Google týkající se robots.txt najdete nejenom hodně dalších užitečných informací, ale také to, že v Google Webmaster Tools je testovací nástroj na robots.txt

Jiný testovací nástroj najdete například na tool.motoricerca.info/robots-checker.phtml. Mimochodem, neuznává Allow direktivu a neumí https.
Robots.txt je vždy umístěn v „rootu“ (nejzákladnější složce) vašeho webu
Crawl-delay direktiva, umožňující nastavit jak dlouho robot čeká do dalšího požadavku, není podporována všemi roboty. U Google toto například musíte nastavit v Google Webmaster Tools
Sitemap direktiva určuje kde je umístěn jeden (či více) sitemap.xml souborů (o těch ale někdy jindy)
Host direktiva umožňující určit jaká je preferovaná doména pro za-indexování obsahu také není podporována všemi roboty

TIP: Co je to sitemap.xml, k čemu to slouží a jak s tím mám zacházet vám prozradí vše o sitemapách. A hodit se bude Jak dostat váš web do Google pro zahrnutí ve vyhledávání

Co je vhodné zdůraznit samostatně

Velmi často se stává, že si firma nechá udělat web a pak se diví, že se neobjevuje (není indexován) ve vyhledávači. První co je v tomto případě vhodné udělat je kontrola, jestli náhodou v robots.txt nezůstalo něco z testování – něco co vyhledávačům říká „neindexuj mě“. Tedy něco jako následující dva řádky (užitečné pokud vyvíjíte a zprovozňujete web a nechcete aby byl indexován):

User-agent: *
Disallow: /

A ještě je dobré vědět, že případné indexování ovlivňují i META značky a HTML značky, které jsou uvedený v jednotlivých stránkách. Ať už jde o rel=“nofollow“ nebo přímo META v podobě Robots. Ale i zde platí, že i když uvedete <META NAME=“ROBOTS“ CONTENT=“NOINDEX,NOFOLLOW“>, nemusí se tím případný robot vůbec řídit.

Robots.txt je hodně starý (od roku 1994) a byť se v průběhu existence dočkal různých rozšíření a doplňků, nic revolučního od něj nečekejte. Docela dobrý přehled o robots.txt najdete třeba v Improving on Robots Exclusion Protocol, což je víceméně oznámení rozšíření původního protokolu, které vzniklo v roce 2008.

Nepřehánějte to s velikostí robots.txt, někteří roboti se s tím nevyrovnají. Třeba Google v minulosti uvedl, že načte pouze 500 KB z robots.txt. Ale popravdě, není dost možné si představit co byste do 500 KB+ velkého robots.txt vlastně chtěli dát.

TIP: Best Practices for Setting Up Meta Robots Tags and Robots.txt od Search Engine Journal je rozhodně dobré čtení na tohle téma v angličtině

Novinka [03.07.19] ::: Google vypustil do světa parser i specifikaci robots.txt jako Open Source a zároveň některé doposud existující součástí specifikace vypustil z důvodu nepoužívání či nadbytečnosti. Podrobnosti hledejte v Robots.txt Specifications, na GitHubu v google/robotstxt a v A note on unsupported rules in robots.txt (vypouští se hlavně noindex, nofollow a crawl-delay), Další vhodné čtení viz A deep dive into the implications of the robots.txt RFC

Novinka [11.09.19] ::: Google rozšiřuje možnosti identifikace odkazů a mění funkčnost nofollow – týká se využití v rel parametru odkazu a vedle nofollow (co už nebude znamanet, že ho nemá robot následovat) jsou novinkou rel=“ugc“ a rel=“sponsored“

PPS: Snad jsem na nic opravdu podstatného k robots.txt nezapomněl. Pokud ano, tak klasicky platí – napište, doplním a tak.

Související příspěvky

Blog Blogování HTML Indexace META Robots.txt Vyhledávání Webdesign Wordpress

TIP#106: robots.txt? K čemu něco takového je? A proč je to užitečné?

Co zásadního potřebujete vědět o robots.txt

Co je vhodné zdůraznit samostatně

Související příspěvky

TIP#2943: Jak je to s tím spouštěním/zakládáním Docker kontejnerů z příkazové řádky?

TIP#2942: USB disk na Macu? Je nutné ho ručně vysunout (Eject) při uspání počítače? A co zálohovací disk?

TIP#2941: ChatGPT má nový generátor fotek a obrázků (4o Image Generation). Je hodně jiný než DALL E 3. Jak na něj?

TIP#2940: Docker na Raspberry Pi. Je to snadné

TIP#2939: MacOS neumí přehrávat AVI, MKV, WMV. Co s tím?

TIP#2938: Co to znamená “čistý Android”? A proč je výhodné si takové telefony kupovat

TIP#2937: Proč MacOS Finder nedokáže udržet nastavený pohled a třídění?

TIP#2936: Co když vám prostě umírá Raspberry Pi? Co zkoušet?

TIP#2935: RayCue Mac Mini M4 Dock. M.2 SSD, kupa portů, povedené provedení

TIP#2934: Oblíbené/Favorites ve Finderu a tam přidané síťové disky. Proč se odtamtud ztrácí?