Wat is het nut van een robots.txt bestand?
De robot-uitsluitingsstandaard, ook wel bekend als het robots-uitsluitingsprotocol of simpelweg robots.txt, is een standaard die door websites wordt gebruikt om te communiceren met webcrawlers en andere webrobots. De standaard geeft aan hoe de webrobot moet worden geïnformeerd over welke delen van de website niet moeten worden verwerkt of gescand.
Waarom is een robots.txt bestand belangrijk?
Voordat een zoekmachine je website crawlt, zal deze je robots.txt-bestand bekijken voor instructies over wat ze mogen crawlen (bezoeken) en indexeren (opslaan) voor de resultaten van de zoekmachine. Robots.txt-bestanden zijn handig, oa als je wilt dat zoekmachines dubbele pagina’s op je website negeren.
Hoe bewerk ik mijn robots.txt bestand?
Gebruik je favoriete teksteditor en maak een tekstbestand. Sla het lege bestand op met de naam robots.txt. Als WordPress de toegang tot het virtuele bestand blokkeerde, zou je het fysieke bestand van onze plugin moeten kunnen bewerken. Als dat niet het geval is, kun je de robots.txt altijd rechtstreeks op je hostingpakket bewerken met behulp van FTP of de Filemanager in je controlpanel.
Waarom wordt een robots.txt bestand gebruikt?
Kort samengevat: Eigenaren van websites gebruiken het bestand /robots.txt om instructies over hun site te geven aan webrobots; dit wordt het Robots Exclusion Protocol genoemd. De “User-agent: *” betekent dat dit gedeelte van toepassing is op alle robots. Het “Disallow: /” vertelt de robot dat het geen pagina’s op de site mag bezoeken / indexeren.
Heb je een robots.txt bestand nodig?
Je website is eenvoudig en foutloos en je wil dat alles geïndexeerd wordt. Je hebt geen bestanden die je wilt blokkeren voor zoekmachines. Je hebt geen mappen of bestanden die je wilt afschermen voor het indexeren van je website. In dat geval is het prima om geen robots.txt-bestand te hebben.
Als je een pakket als WordPress, Joomla! of Magento gebruikt is het raadzaam om een robots.txt bestand te gebruiken. tenslotte hoeven zoekmachines niet je backend bestanden / mappen te indexeren, om maar wat te noemen.
Wat is een user agent in een robots.txt?
Voorbeeld:
User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Blokkeer alle afbeeldingen op je site vanuit Google Afbeeldingen: User-agent: Googlebot-Image Disallow: /
Sta crawl van bestanden van een specifiek bestandstype (bijvoorbeeld .gif) niet toe: User-agent: Googlebot Disallow: /*.gif$
Wat is de betekenis van crawlen voor SEO?
Googlebot (of een zoekmachine-spider) doorzoekt het web om informatie te verwerken. Google sorteert en analyseert URL’s in realtime op basis van gegevens die worden gegenereerd tijdens de detectie van crawltijd, om indexeringsbeslissingen te nemen.
Crawl delay, wat is dat?
Met name Bing kan behoorlijk intensief crawlen waardoor de performance van je website onder druk komt te staan.
Je kunt de volgende regel in je robots.txt bestand zetten om het crawlen wat af te remmen. Zowel Bing als Yahoo! ‘luisteren’ naar deze aanwijzing. Het cijfer 5 betekent een pauze van 5 seconden na een crawl-actie.
crawl-delay: 5
Wees voorzichtig met het vertragen van crawlen. Als 5 seconden niet voldoende lijkt, kun je verhogen naar 10 maar we raden hogere waardes af.
Voorbeeld robots.txt WordPress?
Je mag die van ons afkijken: https://justhost.nl/robots.txt
Voorbeeld robots.txt Magento?
Kun je hier downloaden voor Magento 1.x -> robots.txt voor Magento 1.x
Voor uitleg over robots.txt voor Magento 2.x -> instructie robots.txt Magento 2.x (EN)
Lees in dit artikel meer over robots.txt en het dataverkeer
Geef een antwoord