Robots.txt

Was ist robots.txt in WordPress?

Die robots.txt ist eine einfache Textdatei im Wurzelverzeichnis deiner Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie besuchen dürfen und welche nicht. Sie ist kein Sicherheitsmechanismus, sondern eine Empfehlung – seriöse Crawler wie Googlebot halten sich daran, bösartige Bots ignorieren sie.

WordPress und die virtuelle robots.txt

Interessant: WordPress erstellt die robots.txt nicht als echte Datei auf dem Server, sondern generiert sie dynamisch. Die Datei ist unter domain.de/robots.txt erreichbar, liegt aber nirgendwo im Dateisystem. Das hat einen Vorteil: WordPress kann sie mit Hooks und Filtern programmatisch anpassen.

Wer eine echte robots.txt-Datei im Stammverzeichnis ablegt, überschreibt die dynamische WordPress-Version – das ist manchmal gewünscht, sollte aber bewusst entschieden werden.

Was steht typischerweise in einer WordPress robots.txt?

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://domain.de/wp-sitemap.xml

Das sperrt den Admin-Bereich für alle Crawler, erlaubt aber admin-ajax.php – die für viele Frontend-Funktionen gebraucht wird. Die Sitemap-Angabe ist kein Standard, aber eine gute Praxis.

Häufige Fehler mit robots.txt

  • Gesamte Website gesperrt – ein versehentliches Disallow: / sperrt Google komplett aus. Passiert öfter als man denkt, z.B. wenn die Einstellung „Suchmaschinen abhalten“ in WordPress aktiv gelassen wurde.
  • Staging-Site nicht gesperrt – wenn die Test-Umgebung nicht per robots.txt gesperrt ist, indexiert Google unter Umständen doppelte Inhalte.
  • robots.txt als Sicherheitslösung missbrauchen – sensible Verzeichnisse in robots.txt einzutragen macht sie für neugierige Angreifer erst recht sichtbar.