robots.txt is niet geldig

Het robots.txt bestand vertelt zoekmachines welke pagina's van uw site ze kunnen crawlen. Een ongeldige robots.txt configuratie kan twee soorten problemen veroorzaken:

  • Het kan voorkomen dat zoekmachines openbare pagina's crawlen, waardoor uw inhoud minder vaak in de zoekresultaten verschijnt.
  • Het kan ervoor zorgen dat zoekmachines pagina's crawlen die u mogelijk niet in de zoekresultaten wilt laten zien.

Hoe de Lighthouse robots.txt -audit mislukt

Lighthouse markeert ongeldige robots.txt bestanden:

Lighthouse-audit toont ongeldige robots.txt

Vouw de robots.txt is niet geldige audit uit in uw rapport om erachter te komen wat er mis is met uw robots.txt .

Veel voorkomende fouten zijn onder meer:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse controleert niet of uw robots.txt bestand zich op de juiste locatie bevindt. Om correct te kunnen functioneren, moet het bestand zich in de hoofdmap van uw domein of subdomein bevinden.

Hoe problemen met robots.txt op te lossen

Zorg ervoor dat robots.txt geen HTTP 5XX-statuscode retourneert

Als uw server een serverfout (een HTTP-statuscode in de 500s) voor robots.txt retourneert, weten zoekmachines niet welke pagina's moeten worden gecrawld. Het is mogelijk dat ze stoppen met het crawlen van uw hele site, waardoor nieuwe inhoud niet kan worden geïndexeerd.

Om de HTTP-statuscode te controleren, opent u robots.txt in Chrome en controleert u het verzoek in Chrome DevTools .

Houd robots.txt kleiner dan 500 KiB

Zoekmachines kunnen halverwege stoppen met het verwerken robots.txt als het bestand groter is dan 500 KiB. Dit kan de zoekmachine in verwarring brengen, waardoor uw site onjuist wordt gecrawld.

Om robots.txt klein te houden, concentreert u zich minder op individueel uitgesloten pagina's en meer op bredere patronen. Als u bijvoorbeeld het crawlen van PDF-bestanden wilt blokkeren, mag u niet elk afzonderlijk bestand weigeren. In plaats daarvan kunt u alle URL's die .pdf bevatten niet toestaan ​​door disallow: /*.pdf te gebruiken.

Herstel eventuele formaatfouten

  • Alleen lege regels, opmerkingen en richtlijnen die overeenkomen met de indeling 'naam: waarde' zijn toegestaan ​​in robots.txt .
  • Zorg ervoor dat allow en disallow waarden leeg zijn of beginnen met / of * .
  • Gebruik $ niet midden in een waarde (sta bijvoorbeeld allow: /file$html ).

Zorg ervoor dat er een waarde is voor user-agent

Namen van user-agents om crawlers van zoekmachines te vertellen welke richtlijnen ze moeten volgen. U moet voor elk exemplaar van user-agent een waarde opgeven, zodat zoekmachines weten of ze de bijbehorende reeks richtlijnen moeten volgen.

Om een ​​bepaalde crawler van een zoekmachine te specificeren, gebruikt u een user-agentnaam uit de gepubliceerde lijst. (Hier vindt u bijvoorbeeld de lijst van Google met user-agents die worden gebruikt voor het crawlen .)

Gebruik * om alle anderszins ongeëvenaarde crawlers te matchen.

Niet doen
user-agent:
disallow: /downloads/

Er is geen user-agent gedefinieerd.

Doen
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Er zijn een algemene gebruikersagent en een magicsearchbot gebruikersagent gedefinieerd.

Zorg ervoor dat er geen richtlijnen voor allow ​​of disallow vóór user-agent staan

Namen van gebruikersagenten definiëren de secties van uw robots.txt bestand. Crawlers van zoekmachines gebruiken deze secties om te bepalen welke richtlijnen moeten worden gevolgd. Als u een richtlijn vóór de eerste naam van de user-agent plaatst, betekent dit dat geen enkele crawler deze zal volgen.

Niet doen
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Geen enkele crawler van een zoekmachine leest de disallow: /downloads richtlijn.

Doen
# start of file
user-agent: *
disallow: /downloads/

Het is alle zoekmachines niet toegestaan ​​de map /downloads te crawlen.

Crawlers van zoekmachines volgen alleen richtlijnen in de sectie met de meest specifieke user-agentnaam. Als u bijvoorbeeld richtlijnen heeft voor user-agent: * en user-agent: Googlebot-Image , volgt Googlebot Images alleen de richtlijnen in de sectie user-agent: Googlebot-Image .

Geef een absolute URL op voor sitemap

Sitemapbestanden zijn een geweldige manier om zoekmachines op de hoogte te stellen van pagina's op uw website. Een sitemapbestand bevat doorgaans een lijst met de URL's op uw website, samen met informatie over wanneer deze voor het laatst zijn gewijzigd.

Als u ervoor kiest een sitemapbestand in robots.txt in te dienen, zorg er dan voor dat u een absolute URL gebruikt.

Niet doen
sitemap: /sitemap-file.xml
Doen
sitemap: https://example.com/sitemap-file.xml

Bronnen