Die Robots.txt ist eine kleine, aber wichtige Textdatei, die im Hauptverzeichnis einer Website liegt und Suchmaschinen-Crawlern mitteilt, welche Bereiche der Website sie durchsuchen dürfen und welche nicht. Sie fungiert quasi als „Hausordnung“ für Suchroboter.
Wozu dient die Robots.txt?
- Sie verhindert unnötiges Crawling von unwichtigen Seiten
- Sie schützt sensitive Bereiche vor der Indexierung
- Sie hilft, Crawling-Ressourcen effizienter zu nutzen
- Sie kann die Crawling-Geschwindigkeit regulieren
Beispiel einer einfachen Robots.txt:
User-agent: * Disallow: /admin/ Disallow: /private/ Allow: /
In diesem Beispiel wird allen Crawlern („User-agent: *“) verboten, die Verzeichnisse „/admin/“ und „/private/“ zu durchsuchen, während der Rest der Website erlaubt ist.
Wichtig zu wissen:
Die Robots.txt ist keine Sicherheitsmaßnahme, da sie nur eine Empfehlung darstellt. Böswillige Bots können diese Anweisungen ignorieren. Für echte Sicherheit müssen zusätzliche Maßnahmen wie Zugriffskontrollen implementiert werden.
Best Practice:
Überprüfen Sie Ihre Robots.txt regelmäßig und nutzen Sie Tools wie den Google Search Console Robots.txt-Tester, um sicherzustellen, dass die gewünschten Seiten richtig gecrawlt werden können.