Crawler robot

Čo je crawler?

Crawler (robot, spider) je program využívaný na automatické prechádzanie webových stránok. Úlohou web crawlera je rozpoznanie obsahu na webovej stránke, zaznamenanie informácií a následná indexácia webových stránok. Z hľadiska SEO ide o významný program, ktorý umožňuje vďaka crawlovaniu stránky robotmi zobrazovať webové stránky návštevníkom vo vyhľadávačoch.

Ako môžem nastaviť prechádzanie webu crawlerom?

Pomocou súboru robots.txt môžete ovplyvniť možnosti crawlera prechádzať vybrané webové stránky, prípadne zakázať prehliadanie celého webu.

Čo môžete crawlerom prikázať pomocou robots.txt?

  • zakázať prechádzať obsah na celom webe,
  • zakázať konkrétnemu robotovi (prípadne viacerím) prechádzať webové stránky,
  • zakázať návštevu vybraných adresárov a konkrétnych webových stránok na doméne.

Ako často crawler prehliada webové stránky?

To, ako často robot (napr. Googlebot) chodí na konkrétnu doménu ovplyvňuje viacero faktorov. Najviac však záleží od dôležitosti webu, teda jeho hodnoty, relevantnosti a pod. Na základe toho môže crawler prechádzať webovú stránku každodenne, raz za čas (napr. týždenne), prípadne dokonca až na mesačnej báze.

Keď už sa crawler rozhodne prehľadávať Váš web, rozhoduje sa, koľko webových stránok a aký čas strávi na konkrétnej doméne, to sa nazýva crawl budget. Je významný najmä pre väčšie weby.

Aký crawler roboti existujú?

Najznámejší u nás je Googlebot a v Českej republike Seznambot. Existujú však aj mnohí ďalší web crawleri so zameraním na vyhľadávače ako napr:

  • Bingbot,
  • Applebot,
  • Yandex bot,
  • Slurp Bot (pre vyhľadávač Yahoo),
  • DuckDuckBot,
  • Baiduspider (pre čínsky vyhľadávač Baidu),
  • a mnohé ďalšie.

Poznáme však aj rôzne ďalšie SEO crawleri, ktoré pochádzajú z rôznych nástrojov a využívajú crawlovanie na získavanie dát o webe. Najznámejší roboti pochádzajú z nástrojov ako:

Svojich robotov na prehľadávanie webu majú aj sociálne siete, ako napr. Facebook, Pinterest a pod.