BRJBot je internetový robot, který slouží k procházení webových stránek a sbírání technických informací o stavu internetu.
Aby mohl internet zůstat bezpečným a stabilním místem, je potřeba pro provozování některých služeb provádět hromadné scany co největší části internetu.
Internetová společnost BRJ v pravidelných intervalech prochází veřejně dostupné internetové zdroje, ukládá si jejich obsah a URL, a na základě zpětné analýzy stažených dat provádí další kroky a optimalizace, které jsou užitečné pro majitele webů a poté zejména pro jejich uživatele.
Většinu získaných dat používáme pro analýzu bezpečnostních hrozeb, útoků, zachování historie cenných internetových zdrojů, analýzu struktury webů a mapování URL adres (data používáme pro lepší SEO optimalizaci) a zejména monitoring výpadků a dalších typů technických chyb, které jsou užitečné pro provozovatele internetových portálů.
Kdykoli narazíme na novou URL, kterou zatím neznáme, nejprve si stáhneme technický soubor
robots.txt
, abychom zjistili, jestli správce webu povolil přístup pro roboty.
Pokud máme přístup k webu povolen, snažíme se při každé návštěvě projít co možná nejvíc URL adres patřící k doméně. Mezi stažením jednotlivých stránek vždy čekáme minimálně 5 sekund, abychom vám nezařížili webový server.
Pokud vás zajímají technické detaily ohledně algoritmu na procházení webu, doporučujeme prostudovat veřejně dostupné zdrojové kódy.
Přesný počet URL adres, které na vašem webu procházíme určuje tzv. crawl budget, který vyjadřuje počet URL adres, které se každý kalendářní měsíc pokusíme navštívit.
Aktuální hodnotu této metriky si můžete zobrazit v rámci služby BRJ Cloud. Navýšení limitu si nemůžete přímo koupit, ale musíte si ji zasloužit optimalizací vašeho webu. Obecně platí, že dobrý crawl budget získáte za rychlou odpověď serveru, správně vrácené stavové HTTP kódy a málo duplicitního obsahu.
Základní limit pro každou doménu je 50 procházených URL měsíčně, maximální hodnota není omezena. Weby ve velmi špatném technickém stavu mohou získat minimálně 1 procházenou URL měsíčně, která bude stanovena na hlavní stránku webu, kde budeme jednou za náhodný čas kontrolovat, že byl problém s procházením vyřešen.
Robot v pravidelných intervalech stahuje technický soubor robots.txt
,
ve kterém můžete ovlivnit pravidla pro procházení vašeho webu, případně
procházení úplně zakázat.
Zákaz indexování se projevuje až se zpožděním několika hodin, než robot zjistí, že se váš soubor pravidel změnil. Zakázání procházení vašeho webu nezpůsobí okamžité odebrání informací, které robot zjistil, ale pouze zákaz stahování nových dat. K odstranění již stažených dat dochází se zpožděním několika dnů až jednotek týdnů.
Důležité: Pokud soubor robots.txt neexistuje nebo má nevalidní formát, považujeme to za povolení web procházet.
Ano, do souboru robots.txt
v kořenovém adresáři vašeho webu umístěte tyto řádky:
User-agent: BRJBot
Disallow: /
Smazání provádíme při příštím stažení obsahu tohoto souboru, což trvá obvykle týden. Uživatelé služby BRJ Cloud mohou o rychlejší aktualizaci manuálně požádat.
Částečně ano.
URL umístěné v souboru sitemap.xml
mají při procházení přednost před
těmi, na které vede pouze odkaz. Dále upřednostňujeme URL adresy,
na které vede více odkazů z relevantních stránek nebo jsou blíže k hlavní stránce
webu na odkazové síti.
Pokud je nějaká URL málo významná nebo přestane existovat, může se stát, že ji robot bude procházet velmi málo (jednou za několik měsíců), nebo z procházení úplně vyloučí.
Uživatelé se zaregistrovanou doménou v rámci BRJ Cloud mají při procházení přednost a jejich weby procházíme pravidelně do větší hloubky.
Společnost BRJ si vyhrazuje exkluzivní právo rozhodovat prioritu procházení a hodnocení každé URL. Zvýhodnění konkrétní stránky si musíte zasloužit na základě splnění řady interních kritérií a nelze ani za poplatek uměle navýšit.