Was ist ein AI-Crawler?
Ein AI-Crawler ist ein Programm, das öffentlich erreichbare Webseiten liest und die Texte an einen KI-Anbieter weitergibt. Stellen Sie sich das wie einen Briefträger vor, der jeden Tag bei Ihrer Website klingelt und Notizen mitnimmt. Aus diesen Notizen wird später entweder ein KI-Modell trainiert (ChatGPT, Claude, Gemini) oder eine Antwort live mit Quellen unterfüttert (Perplexity, ChatGPT-Search, AI Overviews in Google).
Der Unterschied zum klassischen Suchmaschinen-Crawler: Suchmaschinen-Crawler wie Googlebot zeigen Ihre Seite in einer Trefferliste an — der Nutzer klickt dann zu Ihnen. AI-Crawler füttern ein Sprachmodell, das die Antwort schon mitliefert. Wenn Sie in der Antwort vorkommen, gewinnen Sie Sichtbarkeit. Wenn nicht — sind Sie für diesen Nutzer praktisch nicht existent.
Die drei Bot-Typen
Nicht jeder AI-Crawler hat denselben Zweck. Für die richtige Steuerung müssen Sie die drei Kategorien verstehen — eine Pauschalentscheidung „alle blocken“ oder „alle erlauben“ ist fast immer falsch.
1. Trainings-Crawler
Diese Bots sammeln Text, mit dem zukünftige KI-Modelle trainiert werden. Beispiele: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (für Gemini-Training), Applebot-Extended (für Apple Intelligence), CCBot (Common Crawl), Bytespider (ByteDance/Doubao). Wirkung: langfristig, betrifft nur kommende Modell-Versionen. Blockierung kostet Sie heute nichts — Ihre Sichtbarkeit in aktuellen ChatGPT- oder Claude-Antworten bleibt unverändert.
2. Such-Crawler
Diese Bots indizieren Seiten für die Live-Such-Funktion der Sprachmodelle. Wenn ChatGPT, Claude oder Perplexity eine Antwort mit Quellen geben, kommen diese Quellen aus dem Index dieser Bots. Beispiele: OAI-SearchBot (OpenAI), Claude-SearchBot (Anthropic), PerplexityBot (Perplexity). Wirkung: direkt, jeden Tag. Blockieren Sie diese Bots, verschwinden Sie unmittelbar aus den Antworten.
3. User-Fetch-Bots
Diese Bots kommen nur, wenn ein Nutzer der KI direkt sagt „Schau mal auf ihre-domain.de nach“. Sie crawlen nicht im Hintergrund, sondern bei punktuellen User-Anfragen. Beispiele: ChatGPT-User, Perplexity-User, Claude-User. Wirkung: punktuell, aber sichtbar pro User-Recherche. Wer hier blockt, ist für solche direkten Anfragen unsichtbar — auch wenn der User Ihre URL explizit nennt.
Die zwölf wichtigsten Bots im Überblick
Trainings-Crawler (6)
- GPTBot — OpenAI. GPTBot ist der Trainings-Crawler von OpenAI.
- ClaudeBot — Anthropic. ClaudeBot ist der Trainings-Crawler von Anthropic für die Claude-Modelle.
- Google-Extended — Google. Google-Extended steuert, ob Ihre Inhalte für das Training von Gemini-Modellen verwendet werden dürfen.
- Applebot-Extended — Apple. Applebot-Extended ist der Trainings-Opt-Out für Apple Intelligence.
- Bytespider — ByteDance. Bytespider ist der Trainings-Crawler von ByteDance, hauptsächlich für die Doubao-Modelle (TikToks LLM).
- CCBot (Common Crawl) — Common Crawl. CCBot ist der Crawler von Common Crawl — einem öffentlichen Web-Archiv.
Such-Crawler (3)
- OAI-SearchBot — OpenAI. OAI-SearchBot indexiert Webseiten für die ChatGPT-Live-Suche.
- Claude-SearchBot — Anthropic. Claude-SearchBot indexiert das Web für Claudes Suchfunktion.
- PerplexityBot — Perplexity. PerplexityBot ist der Haupt-Crawler von Perplexity.
User-Fetch-Bots (3)
- ChatGPT-User — OpenAI. ChatGPT-User holt eine Seite live, wenn ein Nutzer ChatGPT bittet, eine bestimmte URL zu lesen.
- Claude-User — Anthropic. Claude-User holt eine URL live, wenn ein Nutzer Claude darum bittet.
- Perplexity-User — Perplexity. Perplexity-User holt eine URL live, wenn ein Nutzer eine konkrete Recherche anstößt.
Wie unser Checker funktioniert
Sie geben oben Ihre Domain ein (zum Beispiel ihre-domain.de), wir bauen daraus die Adresse https://ihre-domain.de/robots.txt und laden diese Datei live von Ihrem Server. Anschließend parsen wir die Datei nach dem Robots-Exclusion-Standard und gleichen jede Regel mit unserer Liste der zwölf bekannten AI-Crawler ab.
Pro Bot zeigen wir vier mögliche Status:
- Erlaubt — Es gibt entweder einen expliziten User-Agent-Block ohne Disallow oder gar keine Regel, also greift die implizite Standardregel „alle erlaubt“.
- Blockiert — Ein expliziter Disallow auf
/oder eine spezifische Wildcard-Regel sperrt den Bot komplett aus. - Teilweise blockiert — Manche Pfade sind verboten, andere erlaubt. Meist unproblematisch (zum Beispiel
/admingesperrt, Rest offen). - Über Wildcard erlaubt — Sie haben keinen spezifischen Block, der Bot fällt auf die
User-agent: *Regel zurück. Funktional erlaubt, aber weniger Kontrolle.
Wir speichern nichts. Jede Anfrage geht an unseren Server, lädt einmal Ihre robots.txt und gibt das Ergebnis zurück. Kein Account, keine E-Mail, kein Tracking-Cookie für diese Funktion.
robots.txt richtig schreiben — Beispiel für AI-Sichtbarkeit
Wenn Sie ChatGPT, Claude und Perplexity gezielt erlauben, aber das Training für zukünftige Modelle blocken wollen, sieht ein typischer Block so aus:
# Training blocken (kein Sichtbarkeitsverlust heute) User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / # Live-Suche und Nutzer-Abruf erlauben (Sichtbarkeit erhalten) User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: Claude-SearchBot Allow: / User-agent: Claude-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: / # Sitemap nicht vergessen Sitemap: https://ihre-domain.de/sitemap.xml
Wichtig: Die Datei muss exakt im Root liegen, also https://ihre-domain.de/robots.txt — Unterverzeichnisse funktionieren nicht. Die Bot-Namen sind case-insensitive, aber der Standard schreibt sie wie oben.
Was robots.txt nicht kann
robots.txt ist eine Höflichkeitsbitte, kein technischer Block. Drei Bots respektieren sie unzuverlässig oder gar nicht:
- Perplexity-User ignoriert robots.txt — von Perplexity öffentlich bestätigt.
- PerplexityBot respektiert es teilweise — laut mehreren Audits nicht zuverlässig.
- Bytespider (ByteDance/Doubao) ist für aggressives Crawling ohne Rücksicht auf robots.txt bekannt.
Wer diese Bots wirklich blocken will, braucht Server-Side-Filtering — entweder eine Regel im Reverse-Proxy (NGINX, Apache), eine WAF-Rule in Cloudflare/AWS, oder ein IP-Range-Block. Die Anbieter publizieren ihre IP-Ranges (OpenAI: openai.com/gptbot.json; Perplexity in der Doku). Das ist Aufwand und nicht Teil dieses Tools — aber wir bauen das auf Wunsch in einem GEO-Audit für Sie ein.