Robots.txt

Robots.txt = Befehl zum Crawlen einer Website

Was bedeutet robots.txt?

Die robots.txt-Datei ist eine einfache Textdatei, die auf einer Website gespeichert wird, um Suchmaschinen-Crawlern mitzuteilen, welche Teile der Website sie durchsuchen dürfen und welche nicht.

Wenn ein Suchmaschinen-Crawler, wie der Googlebot, eine Website besucht, schaut er zuerst nach dieser Datei, um die darin festgelegten Regeln zu lesen und zu befolgen.

Die Datei kann Anweisungen enthalten, die bestimmte Bereiche oder Seiten der Website für Suchmaschinen sperren.

Zum Beispiel kann die robots.txt-Datei Suchmaschinen daran hindern, auf Verwaltungsseiten oder andere private Bereiche der Website zuzugreifen.

Durch die Verwendung der robots.txt-Datei kann man sicherstellen, dass nur die gewünschten Teile der Website in den Suchmaschinen-Ergebnissen (SERPs) erscheinen.

Sie hilft, die Effizienz der Suchmaschinen-Crawler zu verbessern und die Privatsphäre bestimmter Inhalte zu schützen.

Das macht die Datei zu einem wichtigen Werkzeug, um die Sichtbarkeit und den Datenschutz einer Website zu verwalten.

Definition Robots.txt

Wohin mit der robots.txt-Datei?

Damit Suchmaschinen die robots.txt-Datei finden können, muss sie im Hauptverzeichnis der Domain liegen.

Wenn du die Datei an einem anderen Ort speicherst, werden die Suchmaschinen sie nicht finden und daher nicht berücksichtigen.

Für jede Hauptdomain darf es nur eine einzige robots.txt-Datei geben.

Warum ist die robots.txt-Datei wichtig?

Die robots.txt-Datei ist aus mehreren Gründen sehr wichtig für eine Website.

  • Steuerung des Crawlings von Suchmaschinen
  • Verhinderung der Indexierung sensibler Daten
  • Verbesserung der Sichtbarkeit in Suchmaschinen
  • Optimierung der Website-Performance

Steuerung des Crawlings von Suchmaschinen

Mit der robots.txt-Datei kannst du festlegen, welche Teile deiner Website von Suchmaschinen durchsucht werden dürfen.

So kannst du sicherstellen, dass unwichtige oder irrelevante Bereiche nicht durchsucht werden, was die Effizienz der Suchmaschinen verbessert.

Verhinderung der Indexierung sensibler Daten

Diese Datei hilft auch dabei, sensible Daten wie Admin-Bereiche, Benutzerprofile oder private Dokumente vor der Indexierung zu schützen.

Dadurch stellst du sicher, dass vertrauliche Informationen nicht in den Suchergebnissen erscheinen und die Privatsphäre deiner Nutzer gewahrt bleibt.

Verbesserung der Sichtbarkeit in Suchmaschinen

Durch die gezielte Steuerung, welche Seiten durchsucht werden dürfen, kannst du sicherstellen, dass wichtige und relevante Inhalte besser sichtbar werden.

Wenn unwichtige Seiten vom Crawling ausgeschlossen werden, können Suchmaschinen ihre Ressourcen auf die wichtigen Seiten konzentrieren, was zu einer besseren Platzierung in den Suchergebnissen führt.

Optimierung der Website-Performance

Indem du den Zugriff auf ressourcenintensive Seiten oder Bereiche einschränkst, kannst du die Performance deiner Website verbessern.

Weniger Crawling-Aktivitäten auf unwichtigen Seiten bedeuten, dass mehr Serverressourcen für die Bereitstellung wichtiger Inhalte verfügbar sind, was die Ladezeiten verkürzt und die Benutzererfahrung verbessert.

Aufbau und Inhalt

Die robots.txt-Datei besteht aus zwei Hauptkomponenten: dem User-Agent und den dazugehörigen Befehlen.

Zuerst wird der User-Agent angesprochen, indem sein Name genannt wird. Darunter folgen die Anweisungen, die bestimmen, welche Verzeichnisse durchsucht oder ignoriert werden sollen.

Du kannst auch die sitemap.xml-Datei in der robots.txt hinterlegen, um sicherzustellen, dass Suchmaschinen-Crawler diese finden und aufrufen.

Der Befehl zur Ansprache des Bots lautet User-agent:. Hier kann entweder ein spezifischer Bot angegeben werden oder durch ein * symbolisiert werden, dass alle Bots angesprochen werden.

  • Ein Befehl wie Disallow: schließt bestimmte Verzeichnisse oder Dateien vom Crawlen aus.
  • Der Befehl Allow: / erlaubt das Crawlen aller angegebenen Verzeichnisse.

Beispiel einer robots.txt-Datei

Beispiel 1:

  • User-agent: seobot
  • Disallow: /noseobot/

Dieser Befehl verhindert, dass der User-Agent „seobot“ das Verzeichnis /noseobot/ und seine Unterverzeichnisse durchsucht.

Beispiel 2:

  • User-agent: *
  • Allow: /

In diesem Beispiel wird allen User-Agents der Zugriff auf die gesamte Website erlaubt. Diese Regel ist jedoch überflüssig, da Crawler standardmäßig alle Inhalte durchsuchen, wenn keine anderen Anweisungen vorliegen.

Beispiel 3:

  • User-agent: seobot
  • Disallow: /verzeichnis2/
  • Disallow: /verzeichnis8/

Hier wird dem seobot mitgeteilt, dass er die Verzeichnisse /verzeichnis2/ und /verzeichnis8/ nicht durchsuchen darf.

Wichtige User-Agent-Bezeichnungen:

  • Google: Googlebot
  • Bing: Bingbot
  • Yahoo: Slurp
  • MSN: Msnbot

Kann man der robots.txt-Datei vertrauen?

Die robots.txt-Datei ist lediglich eine Richtlinie für Suchmaschinen-Crawler und bietet keine absolute Garantie, dass die angegebenen Bereiche deiner Website nicht gecrawlt werden.

Daher kann sie nicht als zuverlässiger Schutzmechanismus betrachtet werden. Um sicherzustellen, dass bestimmte Inhalte wirklich geschützt sind, solltest du zusätzlich einen Passwortschutz auf dem Webserver einrichten.

Google und Bing geben zwar an, die robots.txt-Datei zu beachten, sind jedoch nicht dazu verpflichtet.

Andere Crawler oder böswillige Akteure könnten die Anweisungen in der robots.txt-Datei ignorieren.

Daher ist es wichtig, sich nicht ausschließlich auf diese Datei zu verlassen, sondern zusätzliche Sicherheitsmaßnahmen zu ergreifen.

Robots.txt-Datei aufrufen

Du kannst die robots.txt-Datei ganz einfach in deinem Browser aufrufen. Gib oben in der URL-Leiste deine Domain ein und füge /robots.txt hinzu.

Beispiel: www.beispielsseite.de/robots.txt

Die Datei sollte nur über die Hauptdomain aufgerufen werden können. Wenn du die Datei so aufrufst: www.beispielsseite.de/verzeichnis/robots.txt, sollte ein 404-Fehler angezeigt werden.

Wenn du stattdessen zur Startseite deiner Website weitergeleitet wirst, überprüfe deine Weiterleitungen.

Es ist nämlich wichtig, etwa die 301 Weiterleitungen korrekt zu implementieren.  Dadurch stellst du sicher, dass Crawler die neuen, relevanten Inhalte finden und indexieren können.

Das verursacht zwar keinen Fehler, ist aber nicht korrekt. Eine Seite, die nicht erreichbar ist, sollte auch entsprechend als solche angezeigt werden.

Über Lydia Kulterer
Lydia Kulterer
Lydia ist eine versierte Texterin mit über 10 Jahren Erfahrung und Betreiberin des erfolgreichen Online-Magazins we-go-wild.com mit über 150.000 monatlichen LeserInnen. Sie hat mehr als 3500 Website-Texte verfasst und ist spezialisiert auf On-Page SEO, Local SEO und nutzerzentrierten Content.
LinkedIn