Hoge bandbreedte door bots
Grote websites en webshops, websites met veel artikelen of drukbezochte websites krijgen nogal eens last van over-enthousiast bezoek van bots. Dat kan goedaardig verkeer zijn maar kan ook gaan om kwaadaardige bots, zogenaamde bad bots. Dat kunnen bots zijn die versienummers van veelgebruikte pakketten zoals WordPress, Magento, Prestashop, phpBB, vBulletin of phpMyAdmin zoeken. Wanneer kwetsbare versies gevonden worden dan kan dit leiden tot aanvallen op je website of men probeert je website onderuit te halen. Of ze zijn op zoek naar e-mailadressen op een website om er dan spam naar toe te sturen.
Door agressief ‘bezoek’ van bots kun je te maken krijgen met een minder goede performance van je website of hinder veroorzaken op de hostingserver. Je kunt het zelf merken aan een relatief hoog verbruik van je bandbreedte / dataverkeer.
De meeste goedwillende zoekmachines bepalen zelf de frequentie van het indexeren van je website. Die wil je natuurlijk niet blokkeren maar je hebt wel invloed op het gedrag waarmee ze je site bezoeken om te indexeren. Dat regel je in een robots.txt bestand dat je plaatst in de root van je website (bij je andere website bestanden) via FTP of via de File Manager in je DirectAdmin controlpanel.
In een robots.txt bepaal je welke bots toegang hebben tot welke delen van je website en hoe ‘enthousiast’ ze je site mogen crawlen. Als je website-performance of je hostingserver last heeft van te agressief crawlen van je website dan kun je dat als volgt beperken.
Bezoeken van bots achterhalen
Je kunt in je DirectAdmin controlpanel achterhalen welk aandeel van je website-bezoeken samenhangt met bots en crawlers. Login op je DirectAdmin controlpanel, bij meerdere domeinen in je panel klik je op een willekeurig domein om naar het hoofdmenu te gaan, kies dan voor Site Summary / Statistics / Logs.
Klik in het venster dat je dan ziet, onder kopje Domain Webalizer Stats, op de domeinnaam die je wilt bekijken.
Kies in het overzicht van de statistieken op een maand om in te zoomen, scroll helemaal naar beneden en bekijk de tabel Top 15 van Total User Agents. Je kunt daar regels zien staan waar dit in voorkomt, een paar voorbeelden:
http://mj12bot.com
http://www.bing.com/bingbot.htm
Googlebot-Image/1.0
WP Fastest Cache Preload Bot
http://www.semrush.com/bot.html
http://ahrefs.com/robot
Crawl delay
Bing en Majestic-12 (mj12bot.com) maken, in tegenstelling tot Google, gebruik van de “Crawl-delay”. Als je in je robots.txt bestand een Crawl-delay opneemt, wordt deze ‘delay’ gerespecteerd door oa Bing en Majestic-12. Met een Crawl-delay stel je in hoe snel / agressief je website gecrawld wordt. Hieronder vind je de waarden die mogelijk zijn:
Geen waarde opgegeven Normaal
1 Langzaam
5 Heel langzaam
10 Extreem langzaam
Individuele bots in robots.txt instrueren werkt als volgt:
User-Agent: MJ12bot
Crawl-Delay: 10
Het kan zijn dat er al regels staan in je robots.txt bestand. In dat geval kan je “crawl-delay” toevoegen aan de bestaande regels.
Een vertraging opgeven voor alle bots/crawlers in robots.txt:
User-agent: *
Crawl-delay: 5
Het is het niet aan te raden om de bot van Google te blokkeren, tenslotte is dit de meest gebruikte zoekmachine en je wil wel dat je website geïndexeerd wordt natuurlijk. Google respecteert regels uit robots.txt, maar negeert de “Crawl-Delay” regels.
Voor Google kun je de frequentie van crawlen inregelen in de Google Search Console. Maak je nog geen gebruik van Google Search Console? Ga dan naar Google Webmasters om te starten.
Nadat een site (“property”) is aangemaakt is het mogelijk om via de “Site-instellingen” de crawlsnelheid aan te passen. Pas de snelheid aan en monitor of dit de gewenste verbetering geeft.
Hulp nodig?
Heb je hulp nodig bij dit onderwerp? Neem contact op met Just Host support, dan helpen we je op weg.
Geef een antwoord