Robots.txt Konfiguration für SEO
Technisches SEO 9 Min. Lesezeit

Robots.txt und Meta-Robots richtig einsetzen: Der vollständige Guide

Robots.txt und Meta-Robots-Tags richtig konfigurieren: Crawling steuern, häufige Fehler vermeiden und Best Practices für Unternehmen im Ruhrgebiet.

Arnold Wender

Arnold Wender

SEO-Experte & Gründer

Inhaltsverzeichnis

Wer die Kontrolle darüber behalten will, welche Seiten Google crawlt und indexiert, kommt an robots.txt und Meta-Robots-Tags nicht vorbei. Beide Werkzeuge gehören zum Fundament des technischen SEO und werden in der Praxis erstaunlich oft falsch eingesetzt — auch bei Industrie- und Mittelstandsunternehmen im Ruhrgebiet, deren Websites häufig historisch gewachsene Strukturen mit hunderten von Parameter-URLs mitbringen.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website (z. B. https://www.beispiel.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche Ihrer Website sie besuchen dürfen und welche nicht.

Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine blockierte Seite kann trotzdem im Index landen, wenn externe Links darauf verweisen.

# Einfache robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://www.beispiel.de/sitemap.xml

Die Datei wird von Crawlern als erstes abgerufen, bevor sie eine Website durchsuchen. Fehlt sie oder ist sie fehlerhaft, crawlen Suchmaschinen grundsätzlich alles, was erreichbar ist.

Robots.txt Syntax im Detail

User-agent Direktiven

Der User-agent legt fest, für welchen Crawler die folgenden Regeln gelten. Ein Sternchen gilt für alle Bots:

# Regeln für alle Crawler
User-agent: *
Disallow: /intern/

# Spezifische Regeln nur für Google
User-agent: Googlebot
Disallow: /tmp/

# Spezifische Regeln für Bing
User-agent: Bingbot
Disallow: /archiv/

Spezifische User-agent-Regeln haben Vorrang vor allgemeinen Regeln. Wenn Sie sowohl * als auch Googlebot definieren, folgt der Googlebot nur den für ihn spezifischen Anweisungen.

Allow und Disallow Regeln

Mit Disallow sperren Sie Verzeichnisse oder Pfade, mit Allow geben Sie Ausnahmen innerhalb gesperrter Bereiche frei:

User-agent: *
# Gesamtes Admin-Verzeichnis sperren
Disallow: /admin/

# Aber die öffentliche Login-Seite erlauben
Allow: /admin/login/

# Alle URLs mit Parametern sperren
Disallow: /*?

# PDF-Dateien sperren
Disallow: /*.pdf$

Regeln werden von oben nach unten gelesen. Bei Konflikten gilt die spezifischere Regel (längerer Pfad).

Sitemap-Verweis

Am Ende der robots.txt sollte immer ein Verweis auf Ihre XML Sitemap stehen:

Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Der Sitemap-Verweis ist unabhängig vom User-agent und kann mehrfach vorkommen, falls Sie mehrere Sitemaps haben.

Crawl-delay

Einige Crawler wie Bingbot unterstützen die Crawl-delay-Direktive. Google ignoriert sie und nutzt stattdessen die Einstellungen in der Search Console:

User-agent: Bingbot
Crawl-delay: 10

User-agent: Googlebot
# Crawl-delay wird von Google nicht unterstützt
# Stattdessen: Search Console > Einstellungen > Crawling-Rate

Meta-Robots Tags

Während die robots.txt das Crawling auf Verzeichnisebene steuert, bieten Meta-Robots-Tags Kontrolle auf Seitenebene. Sie werden im <head>-Bereich einer HTML-Seite platziert:

<!-- Seite nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">

<!-- Seite indexieren, aber Links nicht folgen -->
<meta name="robots" content="index, nofollow">

<!-- Kein Snippet in Suchergebnissen zeigen -->
<meta name="robots" content="nosnippet">

<!-- Keine zwischengespeicherte Version anzeigen -->
<meta name="robots" content="noarchive">

<!-- Bilder auf dieser Seite nicht indexieren -->
<meta name="robots" content="noimageindex">

<!-- Kombination mehrerer Direktiven -->
<meta name="robots" content="noindex, noarchive, nosnippet">

Wichtige Meta-Robots-Direktiven

DirektiveWirkung
indexSeite darf indexiert werden (Standard)
noindexSeite soll NICHT indexiert werden
followLinks auf der Seite dürfen verfolgt werden (Standard)
nofollowLinks sollen NICHT verfolgt werden
noarchiveKeine Cached-Version in Suchergebnissen
nosnippetKein Text-Snippet anzeigen
noimageindexBilder nicht indexieren
max-snippet:[n]Maximale Snippet-Länge in Zeichen

Sie können Meta-Robots auch nur für bestimmte Crawler setzen:

<!-- Nur für Google -->
<meta name="googlebot" content="noindex">

<!-- Nur für Bing -->
<meta name="bingbot" content="noindex">

X-Robots-Tag (HTTP-Header)

Für Nicht-HTML-Dateien wie PDFs oder Bilder verwenden Sie den X-Robots-Tag als HTTP-Header:

HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow

In der Apache-Konfiguration:

# PDFs von der Indexierung ausschließen
<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Robots.txt vs. Meta Robots vs. X-Robots-Tag

Eigenschaft robots.txt Meta Robots X-Robots-Tag
Steuerungsebene Verzeichnis / Pfad Einzelne Seite Einzelne Ressource
Steuert Crawling
Steuert Indexierung
Für HTML-Seiten
Für PDFs/Bilder
Granularität Grob (Pfad-basiert) Fein (pro Seite) Fein (pro Ressource)
Umsetzung Textdatei im Root HTML <head>-Tag HTTP-Header
noindex möglich
nofollow möglich
Von Google beachtet

Best Practices

Was sollte blockiert werden?

Sperren Sie Bereiche, die keinen SEO-Wert haben und Crawl-Budget verschwenden — gerade bei größeren Unternehmenswebsites im Ruhrgebiet mit umfangreichen Produktkatalogen oder Filialseiten ein häufiges Problem:

  • /admin/ und /wp-admin/ - Backend-Bereiche
  • /warenkorb/ und /checkout/ - Transaktionsseiten
  • /suche/ und /?s= - Interne Suchergebnisse
  • /tag/ - Tag-Archive (häufig Thin Content)
  • /tmp/ und /cache/ - Temporäre Dateien
  • Parameter-URLs wie ?sort=, ?filter=, ?session=

Was sollte NICHT blockiert werden?

Diese Ressourcen müssen für Crawler zugänglich bleiben:

  • CSS- und JavaScript-Dateien - Google benötigt sie zum Rendern
  • Bilder - Wichtig für die Bild-Suche und Page Experience
  • Die Sitemap - Muss immer erreichbar sein
  • Seiten mit Canonical Tags - Canonical funktioniert nur, wenn die Seite gecrawlt wird
  • Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/

Testing mit der Google Search Console

  1. Öffnen Sie die Google Search Console
  2. Navigieren Sie zu Einstellungen > robots.txt
  3. Nutzen Sie den robots.txt-Tester zum Prüfen einzelner URLs
  4. Überprüfen Sie unter Indexierung > Seiten den Status Ihrer Seiten
  5. Nutzen Sie die URL-Prüfung für einzelne Seiten

Komplette robots.txt für eine typische Website

Ob Logistik-Dienstleister in Dortmund, Handwerksbetrieb in Bochum oder Maschinenbau-KMU in Oberhausen — die folgende robots.txt deckt die gängigsten Anforderungen ab:

# robots.txt für www.beispiel.de
# Letzte Aktualisierung: 2026-03-27

# Allgemeine Regeln für alle Crawler
User-agent: *

# Backend und Admin sperren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/

# Interne Suche sperren
Disallow: /suche/
Disallow: /*?s=

# Warenkorb und Checkout sperren
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/

# Thin Content und Duplikate vermeiden
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=

# Technische Verzeichnisse
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/

# CSS, JS und Bilder explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/

# Sitemaps
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Häufige Fehler

  1. Alles mit Disallow: / sperren - Der häufigste und folgenschwerste Fehler. Ihre gesamte Website verschwindet aus dem Index. Oft passiert dies nach einem Relaunch, wenn die Staging-robots.txt in die Produktion übernommen wird.

  2. CSS und JavaScript blockieren - Google muss Ihre Seite rendern können. Wenn Sie CSS/JS sperren, kann Google Ihre Seite nicht richtig bewerten und das Ranking leidet.

  3. robots.txt zur Indexierungssteuerung nutzen - Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Eine per robots.txt blockierte Seite kann trotzdem im Index erscheinen. Nutzen Sie stattdessen noindex.

  4. noindex UND robots.txt-Block kombinieren - Wenn Google eine Seite nicht crawlen kann, sieht es auch das noindex-Tag nicht. Die Seite bleibt möglicherweise im Index.

  5. Wildcard-Regeln ohne Tests - Regeln mit * und $ können unbeabsichtigt wichtige Seiten blockieren. Testen Sie jede Regel in der Search Console.

  6. Sitemap-Verweis vergessen - Der Sitemap-Verweis in der robots.txt ist eine zusätzliche Absicherung, dass Crawler Ihre Sitemap finden.

  7. Veraltete robots.txt nach Relaunch - Nach einem Website-Relaunch ändern sich oft URL-Strukturen. Passen Sie die robots.txt entsprechend an.

Fazit

Die richtige Konfiguration von robots.txt und Meta-Robots-Tags ist ein zentraler Bestandteil einer soliden technischen SEO-Strategie. Beide Werkzeuge ergänzen sich: Die robots.txt steuert effizient das Crawling ganzer Verzeichnisse, während Meta-Robots-Tags die Indexierung einzelner Seiten kontrollieren. Gerade für Unternehmen im Ruhrgebiet — ob Logistik in Dortmund, Energiewirtschaft in Gelsenkirchen oder Handwerk in Hagen — lohnt sich die sorgfältige Konfiguration, um das Crawl-Budget auf die umsatzrelevanten Seiten zu lenken.

Nehmen Sie sich die Zeit, Ihre robots.txt regelmäßig zu prüfen und mit der Google Search Console zu testen. Fehler in diesem Bereich können gravierende Auswirkungen auf Ihre Sichtbarkeit haben.

Sie möchten sicherstellen, dass Ihre Website technisch einwandfrei konfiguriert ist? Kontaktieren Sie uns für eine umfassende technische SEO-Analyse.


FAQ

Was passiert, wenn ich keine robots.txt habe?

Ohne robots.txt crawlen Suchmaschinen alle erreichbaren Seiten Ihrer Website. Das ist für kleine Websites meist unproblematisch. Bei größeren Websites kann es jedoch dazu führen, dass Crawl-Budget für unwichtige Seiten verschwendet wird — etwa für interne Suchergebnisse, Filterseiten oder Admin-Bereiche. Besonders bei Mittelstandsunternehmen im Ruhrgebiet mit umfangreichen Produkt- oder Leistungsseiten ist eine saubere robots.txt unverzichtbar.

Kann ich mit robots.txt Seiten aus Google entfernen?

Nein. Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn externe Links auf eine per robots.txt blockierte Seite verweisen, kann Google sie trotzdem indexieren — allerdings ohne den Inhalt zu kennen. Um Seiten aus dem Index zu entfernen, verwenden Sie das noindex Meta-Tag oder das Google URL Removal Tool in der Search Console.

Wie teste ich meine robots.txt?

Am zuverlässigsten testen Sie in der Google Search Console unter Einstellungen > robots.txt. Dort können Sie einzelne URLs eingeben und prüfen, ob sie blockiert oder erlaubt sind. Zusätzlich können Sie mit der URL-Prüfung sehen, ob Google eine bestimmte Seite crawlen und indexieren kann.

Blockiert robots.txt auch andere Suchmaschinen?

Die robots.txt gilt für alle Suchmaschinen-Crawler, die sich an das Robots Exclusion Protocol halten — also Google, Bing, Yahoo, Yandex und viele weitere. Allerdings halten sich nicht alle Bots daran. Malware-Bots oder Scraper ignorieren die robots.txt in der Regel. Für echten Zugriffsschutz benötigen Sie serverseitige Maßnahmen wie Passwortschutz oder IP-Blocking.

Wie oft sollte ich meine robots.txt aktualisieren?

Prüfen Sie Ihre robots.txt mindestens vierteljährlich sowie nach jedem Website-Relaunch, nach strukturellen Änderungen an der URL-Architektur und nach der Einführung neuer Bereiche wie einem Blog oder Shop. Eine veraltete robots.txt kann versehentlich neue, wichtige Seiten blockieren oder irrelevante Bereiche offenlassen.

Arnold Wender, SEO-Experte

SEO-Experte & Gründer

Arnold Wender ist Gründer und Geschäftsführer der SEO-Agentur Halle (Saale). Mit über 18 Jahren Erfahrung in der Suchmaschinenoptimierung hilft er Unternehmen, ihre Online-Sichtbarkeit nachhaltig zu verbessern.

Profil anzeigen