Textový súbor robots.txt

Čo je robots.txt?

Textový súbor robots.txt dáva crawlerom (resp. robotom) pokyny, ktoré webové stránky na doméne môžu a naopak, ktoré nesmú prehliadať a následne indexovať.

Čo obsahuje robots.txt

  • User-agent – môže ísť o názov konkrétneho crawlera, pre ktorého budú obmedzenia platiť. (zoznam najpoužívanejších robotov)
  • Disallow – v tejto časti môžete zakázať adresáre a webové stránky, ktoré nechcete aby navštevoval
  • Allow – v tejto časti môžete dovoliť robotom (Allow platí len pre Googlebota) navštíviť konkrétne webové stránky, aj keď je nadradený adresár zakázaný v Disallow časti.
  • Crawl-delay – Týmto príkazom môžete zadať oneskorený čas (v sekundách), po ktorých môžete začať s prehľadávaním webu.
  • Sitemap – pre uľahčenie práce robotom uveďte URL adresy sitemapy webu do súboru, vďaka čomu ich môže skôr nájsť.

Všetko o tomto sa môžete dozvedieť aj priamo od Google v tomto článku (v angličtine)

Musím mať súbor na webe?

Na webovej stránke robots.txt nemusíte mať nasadený, avšak pokiaľ nechcete indexovať nežiadúci obsah, prípadne zvýšiť efektivitu crawlovania (zameraním robotov na dôležitý obsah) je nasadenie a nastavenie robots.txt na web dôležité.

Ako vytvoriť súbor robots.txt?

Najlepšie je využitie podrobného návodu priamo od Google. Pokiaľ máte webovú stránku na Wordpresse, môžete využiť aj niektorý z pluginov, ktoré dokážu vytvoriť robots.txt, napríklad Yoast SEO.

Príklady príkazov v robots.txt

Ukážeme Vám jednotlivé príklady ako môže obsah súboru vyzerať.

Ako vyzerá URL adresa súboru?

Príklad: www.example.com/robots.txt

 

Ukážka robots.txt na našom webe:

# —————————

User-agent: *

Disallow:

Sitemap: https://www.futurino.sk/sitemap_index.xml

# —————————

 

Čo znamenajú jednotlivé príkazy v súbore robots.txt?

Prístup robotov k celej webovej stránke bez obmedzení:

User-agent: *

Disallow:

 

Zákaz prechádzania robotom celej webovej stránke:

User-agent: *

Disallow: /

 

Zákaz prechádzania robotom konkrétnemu adresáru na webe

User-agent: *

Disallow: /adresar/

 

Zákaz prechádzania robotom konkrétnej webovej stránke (presná URL)

User-agent: *

Disallow: /kategoria/priklad-webovej-stranky

 

Zákaz prechádzania webu konkrétnemu robotovi

User-agent: Googlebot

Disallow: /

 

Ako vyskúšať či je robots.txt správne nasadený na webe?

Overiť funkčnosť súboru robots.txt môžete priamo nástrojom od Google. Potrebujete k tomu prepojenie webu s Google Search Console a následné overenie prostredníctvom nasledujúceho odkazu https://www.google.com/webmasters/tools/robots-testing-tool?hl=cs