KI-Crawler blocken, zur Kasse bitten oder zulassen?

Sie befinden sich: Home > News Archiv > Webmaster > KI-Crawler blocken, ...

GPTBot, ClaudeBot und PerplexityBot überziehen Webseiten mit Anfragen. Wer pauschal aussperrt, fliegt aber aus den Antworten von ChatGPT und Perplexity. Drei Wege führen aus dem Dilemma: blocken, kassieren oder gezielt zulassen.

Im August 2025 richtete Cloudflare ein paar brandneue Testdomains ein. Keine davon war öffentlich verlinkt oder bei Google zu finden, in der robots.txt stand ein Komplettverbot für Bots, zusätzlich blockten Firewall-Regeln gezielt die Crawler von Perplexity. Dann stellten die Ingenieure der KI-Suchmaschine Fragen zum Inhalt dieser Seiten. Perplexity antwortete detailliert. Der Dienst hatte sich an robots.txt und Firewall vorbeigeschmuggelt, mit einem getarnten Browser-User-Agent, der Chrome auf macOS imitierte, und mit ständig wechselnden IP-Adressen.

Cloudflare warf Perplexity daraufhin von der Liste verifizierter Bots. Beobachtet wurde das Ganze über Zehntausende Domains und Millionen Anfragen pro Tag. Perplexity nannte den Bericht einen Verkaufspitch. Egal, wer recht hat, die Lehre bleibt: Eine Zeile in der robots.txt hält keinen Crawler auf, der nicht aufgehalten werden will.

Dabei sind diese Crawler längst Alltag. GPTBot-Anfragen stiegen in einem Jahr um 147 Prozent, der KI-Bot-Traffic insgesamt um über 300 Prozent. Auf der anderen Seite wächst genau dort die Sichtbarkeit: KI-Suchbesuche legten im Jahresvergleich um fast 43 Prozent zu, und der Großteil davon kommt aus ChatGPT. Es gibt also nicht mehr nur Suchmaschinen, die Besucher schicken, sondern auch Maschinen, die Inhalte abgreifen und gleich selbst beantworten. Aussperren oder mitspielen ist eine echte Entscheidung mit drei Optionen: blocken, zur Kasse bitten oder gezielt zulassen.

KI-Crawler ist nicht gleich KI-Crawler

Der häufigste Fehler steckt schon im Denken. Viele behandeln „den KI-Bot“ als eine Sache und sperren ihn pauschal aus. Seit 2024 haben OpenAI, Anthropic und Perplexity ihren einen Bot aber in mehrere aufgeteilt, jeder mit einer eigenen Aufgabe. Wer das übersieht, blockiert oft das Falsche.

Typ	Was er tut	Beispiele	Sperren bedeutet
Trainings-Crawler	Sammelt Inhalte fürs Modelltraining	GPTBot, ClaudeBot, CCBot, Google-Extended	Inhalt fließt nicht in neue Modelle, wirkt aber nicht rückwirkend
Index-Crawler	Baut den Suchindex für KI-Antworten	OAI-SearchBot, PerplexityBot, Amazonbot	Seite verschwindet binnen Stunden aus den Antworten
On-Demand-Fetcher	Holt eine Seite, wenn ein Nutzer danach fragt	ChatGPT-User, Perplexity-User, Claude-User	Nutzer können die URL nicht mehr in den Chat ziehen

Ein Detail, das viel Ärger spart: Google-Extended steuert nur, ob Ihre Inhalte für Gemini genutzt werden. Es zu sperren ändert nichts am Google-Ranking. Googlebot dagegen niemals blockieren, das wirft die Seite komplett aus der Google-Suche.

Der teure Denkfehler: Wer alles blockt, verschwindet

Hier liegt der Punkt, den die meisten Anleitungen übergehen. Trainings-Crawler zu sperren hält Ihre Texte aus künftigen Modellen heraus. Steckt der Inhalt aber schon im Trainingsdatensatz, bringt das Sperren nichts mehr, denn ein trainiertes Modell vergisst nicht. Index- und On-Demand-Crawler zu sperren wirkt dagegen sofort. Innerhalb weniger Stunden taucht Ihre Seite nicht mehr in den Antworten von ChatGPT oder Perplexity auf.

Das ist die Kehrseite von GEO, also der Optimierung dafür, in KI-Antworten zitiert zu werden. Ein pauschales Verbot für alle Bots trifft beide Seiten und kann eine Seite unbemerkt aus der am schnellsten wachsenden Fundquelle löschen. Die brauchbare Regel: Retrieval erlauben, über Training getrennt entscheiden. Diese Wahl trifft man pro Crawler, nicht mit einem Schalter für alles.

Stufe 1: robots.txt und Content Signals

Die robots.txt ist der Anfang, nicht das Ende. Listen Sie einzelne Bots auf, statt mit einem Sternchen pauschal zu sperren, und geben Sie jedem User-Agent eine eigene Regel. Eine Konfiguration nach dem Muster „Suche ja, Training nein“ erlaubt die Such- und Index-Bots und sperrt die Trainings-Crawler:

User-Agent	robots.txt-Eintrag
OAI-SearchBot	Allow: /
PerplexityBot	Allow: /
GPTBot	Disallow: /
ClaudeBot	Disallow: /
CCBot	Disallow: /
Google-Extended	Disallow: /
Googlebot	Allow: /

Neu seit Herbst 2025 ist Cloudflares Content Signals Policy. Sie erweitert die robots.txt um drei Angaben: search für den Suchindex, ai-input für Echtzeit-Antworten und ai-train fürs Modelltraining. Eine Zeile wie Content-Signal: search=yes, ai-train=no macht klar, was nach dem Zugriff mit dem Inhalt passieren darf. Cloudflare setzt das auf über 3,8 Millionen Domains automatisch, voreingestellt auf search=yes und ai-train=no. Ein echter Standard ist es noch nicht, die zuständige IETF-Arbeitsgruppe AIPREF arbeitet erst daran.

Und llms.txt? Vergessen Sie die Datei als Schutz. Bis heute liest kein großer KI-Anbieter sie produktiv aus. Sie beschreibt Ihre Seite für Maschinen, sie sperrt nichts.

Stufe 2: Durchsetzen statt bitten

robots.txt ist freiwillig. Brave Crawler von OpenAI, Anthropic oder Google halten sich daran. Im Test stoppte ChatGPT sein Crawling sofort, sobald die robots.txt den Zugriff verbot. Andere ignorieren die Datei, der Perplexity-Fall vom Anfang zeigt es. Wer wirklich sperren will, muss tiefer ansetzen.

Auf dem eigenen Server geht das direkt. Auf Apache und LiteSpeed über die .htaccess mit einer RewriteCond auf den User-Agent, auf NGINX mit einer kurzen Regel in der nginx.conf, die passende Anfragen mit einem 403 abweist. Diese Sperren lassen sich, anders als robots.txt, nicht überreden. Cloudflare bündelt das in der Funktion AI Crawl Control: pro Crawler zulassen, blockieren oder kassieren, dazu eine Übersicht, welcher Bot sich an die robots.txt hält.

Eine Grenze bleibt. Getarnte Scraper, die einen echten Browser-User-Agent senden, fängt keine User-Agent-Regel. Dagegen hilft nur Verhaltens- und Reputationsanalyse, wie sie CDNs und Bot-Management-Dienste betreiben. In einer Untersuchung von 16 bekannten KI-Crawlern waren immerhin 5,7 Prozent der Anfragen mit gefälschtem User-Agent unterwegs. Als Gegenmittel entsteht gerade Web Bot Auth: Bots signieren ihre Anfragen kryptografisch, die Website prüft die Signatur. Noch ist das ein Entwurf, aber er zeigt die Richtung.

Stufe 3: Zur Kasse bitten

Statt Crawler nur auszusperren, kann man sie zahlen lassen. Cloudflares Pay-per-Crawl nutzt den alten HTTP-Statuscode 402, Payment Required. Der Crawler zeigt entweder Zahlungsbereitschaft im Anfrage-Header oder bekommt eine 402 mit Preis zurück, Cloudflare wickelt das Geld ab. Noch läuft das in geschlossener Beta, und bisher lässt sich nur ein einziger Preis für alle zahlenden Crawler festlegen. Ein Test mit dem öffentlichen Datensatz von Stack Overflow senkte den unbezahlten Bot-Traffic um rund 32 Prozent und hob die Lizenzeinnahmen um etwa 27 Prozent.

Cloudflare ist nicht die einzige Tür zu dieser Idee. Anbieter wie Tollbit und ProRata sowie der Standard Really Simple Licensing bauen an einem Lizenzmarkt für KI-Inhalte, auch Microsoft und Amazon planen solche Marktplätze. Für WordPress gibt es bereits ein Plugin, das Really Simple Licensing samt Bezahlung direkt aus der robots.txt heraus umsetzt, mit der Option, sich mit anderen zusammenzutun und gemeinsam zu verhandeln. Ob kleine Seiten damit wirklich Geld sehen, ist offen. Aber je mehr Betreiber ihre Inhalte nicht mehr gratis hergeben, desto besser steht die Verhandlungsposition aller.

Die deutsche Rechtslage: der TDM-Vorbehalt

In Deutschland hat man als Betreiber ein schärferes Werkzeug, als viele glauben. Paragraf 44b Urheberrechtsgesetz erlaubt Text und Data Mining an frei zugänglichen Werken, also auch das Einsammeln fürs KI-Training, solange sich der Rechteinhaber das nicht vorbehalten hat. Genau dieser Vorbehalt ist der Hebel. Bei Online-Inhalten muss er in maschinenlesbarer Form erfolgen. Die robots.txt gilt als der gängigste Weg dafür, daneben gibt es einen formalen Standard, das TDM Reservation Protocol, einbindbar über eine Datei unter /.well-known/tdmrep.json, über HTTP-Header oder Meta-Tags.

Drei Dinge sollte man kennen. Der Vorbehalt wirkt nur nach vorne, bereits trainierte Modelle bleiben, wie sie sind. Für kommerzielles Mining gibt es keine gesetzliche Vergütung, der Vorbehalt verhindert die Nutzung, er bezahlt sie nicht. Und die nicht-kommerzielle Forschung nach Paragraf 60d darf den Vorbehalt ohnehin ignorieren. Das Landgericht Hamburg deutete in einem Urteil sogar an, ein in normaler Sprache formulierter Vorbehalt könne genügen, weil moderne KI Sprache versteht, und verwies auf den AI Act, der KI-Anbieter zu modernster Technik bei der Erkennung solcher Vorbehalte verpflichtet. Entschieden wurde der Fall am Ende über die Forschungsschranke, höchstrichterlich geklärt ist die Frage also nicht. Wer sichergehen will, kombiniert robots.txt, maschinenlesbaren Vorbehalt und einen klaren Hinweis in den Nutzungsbedingungen. Mehr zu den Pflichten rund um KI steht im Beitrag zum EU AI Act 2026.

Ohne Cloudflare und für WordPress

Einen Großanbieter braucht man zum Anfangen nicht. Das Open-Source-Projekt ai.robots.txt pflegt eine laufend aktualisierte Bot-Liste und erzeugt daraus fertige Dateien für robots.txt, .htaccess, NGINX, Caddy und HAProxy. Wer WordPress nutzt, kommt mit Plugins weiter. „Block AI Crawlers“ trägt die Sperren in die virtuelle robots.txt ein und setzt zusätzlich die Meta-Tags noai und noimageai. WP Ghost blockt über seine Firewall direkt auf Server-Ebene nach User-Agent, das ist echte Durchsetzung statt einer Bitte. Und die gängigen SEO-Plugins wie Yoast, Rank Math oder All in One SEO bringen einen Editor für die robots.txt schon mit.

So entscheiden Sie

Bevor Sie irgendetwas sperren, schauen Sie nach, welche Bots Ihre Seite überhaupt erreichen und was eine Voreinstellung vielleicht schon blockt. Wer Cloudflare nutzt, hat möglicherweise längst Crawler ausgesperrt, ohne es zu merken, denn bei neuen Domains ist das dort inzwischen Standard. Danach trennen Sie zwei Fragen sauber: Soll Ihr Inhalt in KI-Antworten auftauchen, dann lassen Sie Retrieval zu. Soll er ins Modelltraining fließen, das entscheiden Sie unabhängig davon. Halten Sie die Antwort schriftlich fest, sonst setzt die nächste Server-Migration alles still zurück. Und werfen Sie ab und zu einen Blick in die Logs, neue Crawler tauchen mehrmals im Jahr auf.

Die alte Frage lautete: Lasse ich Bots rein oder nicht. Die neue lautet: Welche Tür öffne ich für wen, und zu welchem Preis. Wer das pauschal beantwortet, verliert entweder die Kontrolle über seine Inhalte oder die Sichtbarkeit in der Suche von morgen. Wer differenziert, behält beides in der Hand.

crawler anfragen zulassen pauschal perplexity claudebot

Erstellt am: 27.06.2026 um 11:13 Uhr von Bremer24

Webung: Hier bekommen Sie PHP fähigen Webspace der mit Ökostrom betrieben wird ab bereits 2 Euro/ Monat für ihre Homepage. Zusätzlich ist eine eigene Internetadresse mit enthalten.

Kommentar schreiben

Teilen Sie uns Ihre Meinung mit. Ihr Kommentar wird nach Pruefung veroeffentlicht.

Neusten News in der Kategorie "Webmaster"

• UpdraftPlus-Lücke löst Supply-Chain-Angriff aus
Erst war es nur eine Lücke im Backup-Plugin UpdraftPlus. Dann gelangte...

• SSL-Zertifikate 2026: Nur noch 47 Tage statt 398
Einmal im Jahr das SSL-Zertifikat erneuern? Damit ist bald Schluss. Bi...

• WordPress 7.0 ist da, doch Plugins bleiben das Risiko
WordPress 7.0 ist da, mit KI im Core und einer gestrichenen Vorzeigefu...

• Cyber Resilience Act: Was ab 11. September 2026 gilt
Ab dem 11. September 2026 müssen Hersteller digitaler Produkte aktiv a...

• GEO: So wird Ihre Website in KI-Antworten zitiert
Wer bei Google ganz oben steht, taucht in ChatGPT oder Perplexity oft ...

• Google Spam Update Juni 2026: Das sollten Sie tun
Am 24. Juni hat Google das June 2026 Spam Update ausgerollt. Ohne Blog...

• Token-Explosion: So ruinieren MCP-Server Ihren Coding-Workfl...
MCP-Server wirken wie clevere Helfer, doch sie können Ihren KI-Co...

• Neue Hürden für Entwickler: So meistern Sie den raueren Arbe...
Die Suche nach Programmierjobs wird zur Herausforderung. Automatisieru...

• FAIR ersetzt WordPress.org-API mehr Kontrolle für Entwickle...
Die Linux Foundation startet mit FAIR einen neuen, dezentralen Paketma...

• GitHub-Sicherheitslücke: Private und gelöschte Repos bleiben...
GitHub hat ein erhebliches Sicherheitsproblem: Gelöschte und private R...