IQONEX

Kostenloses Tool · GEO-Toolkit

AI-Crawler-Checker — sehen ChatGPT, Claude und Perplexity Ihre Seite?

Domain eingeben, in zwei Sekunden wissen Sie, welche AI-Crawler Ihre Webseite lesen dürfen — und welche aus Versehen blockiert sind. Geprüft werden zwölf relevante Bots aus den Ökosystemen OpenAI, Anthropic, Perplexity, Google, Apple, ByteDance und Common Crawl. Komplett kostenlos, ohne Anmeldung.

Kurz und ehrlich

  • Viele Mittelständler blocken aus Versehen die wichtigen AI-Crawler und sind dann in ChatGPT, Claude und Perplexity unsichtbar.
  • Drei Bot-Typen: Trainings-Crawler (für Modell-Training), Such-Crawler (für Live-Antworten mit Quellen), User-Fetch-Bots (Live-Abruf wenn ein User direkt nach Ihnen fragt).
  • Faustregel: Search- und User-Fetch-Bots erlauben (sonst keine Sichtbarkeit). Trainings-Bots dürfen Sie nach Geschmack blocken.
  • Drei Bots ignorieren robots.txt teilweise oder ganz (Perplexity-User, Bytespider, teilweise PerplexityBot) — dafür braucht es Server-Side-Filtering.

Was ist ein AI-Crawler?

Ein AI-Crawler ist ein Programm, das öffentlich erreichbare Webseiten liest und die Texte an einen KI-Anbieter weitergibt. Stellen Sie sich das wie einen Briefträger vor, der jeden Tag bei Ihrer Website klingelt und Notizen mitnimmt. Aus diesen Notizen wird später entweder ein KI-Modell trainiert (ChatGPT, Claude, Gemini) oder eine Antwort live mit Quellen unterfüttert (Perplexity, ChatGPT-Search, AI Overviews in Google).

Der Unterschied zum klassischen Suchmaschinen-Crawler: Suchmaschinen-Crawler wie Googlebot zeigen Ihre Seite in einer Trefferliste an — der Nutzer klickt dann zu Ihnen. AI-Crawler füttern ein Sprachmodell, das die Antwort schon mitliefert. Wenn Sie in der Antwort vorkommen, gewinnen Sie Sichtbarkeit. Wenn nicht — sind Sie für diesen Nutzer praktisch nicht existent.

Die drei Bot-Typen

Nicht jeder AI-Crawler hat denselben Zweck. Für die richtige Steuerung müssen Sie die drei Kategorien verstehen — eine Pauschalentscheidung „alle blocken“ oder „alle erlauben“ ist fast immer falsch.

1. Trainings-Crawler

Diese Bots sammeln Text, mit dem zukünftige KI-Modelle trainiert werden. Beispiele: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (für Gemini-Training), Applebot-Extended (für Apple Intelligence), CCBot (Common Crawl), Bytespider (ByteDance/Doubao). Wirkung: langfristig, betrifft nur kommende Modell-Versionen. Blockierung kostet Sie heute nichts — Ihre Sichtbarkeit in aktuellen ChatGPT- oder Claude-Antworten bleibt unverändert.

2. Such-Crawler

Diese Bots indizieren Seiten für die Live-Such-Funktion der Sprachmodelle. Wenn ChatGPT, Claude oder Perplexity eine Antwort mit Quellen geben, kommen diese Quellen aus dem Index dieser Bots. Beispiele: OAI-SearchBot (OpenAI), Claude-SearchBot (Anthropic), PerplexityBot (Perplexity). Wirkung: direkt, jeden Tag. Blockieren Sie diese Bots, verschwinden Sie unmittelbar aus den Antworten.

3. User-Fetch-Bots

Diese Bots kommen nur, wenn ein Nutzer der KI direkt sagt „Schau mal auf ihre-domain.de nach“. Sie crawlen nicht im Hintergrund, sondern bei punktuellen User-Anfragen. Beispiele: ChatGPT-User, Perplexity-User, Claude-User. Wirkung: punktuell, aber sichtbar pro User-Recherche. Wer hier blockt, ist für solche direkten Anfragen unsichtbar — auch wenn der User Ihre URL explizit nennt.

Die zwölf wichtigsten Bots im Überblick

Trainings-Crawler (6)

  • GPTBot OpenAI. GPTBot ist der Trainings-Crawler von OpenAI.
  • ClaudeBot Anthropic. ClaudeBot ist der Trainings-Crawler von Anthropic für die Claude-Modelle.
  • Google-Extended Google. Google-Extended steuert, ob Ihre Inhalte für das Training von Gemini-Modellen verwendet werden dürfen.
  • Applebot-Extended Apple. Applebot-Extended ist der Trainings-Opt-Out für Apple Intelligence.
  • Bytespider ByteDance. Bytespider ist der Trainings-Crawler von ByteDance, hauptsächlich für die Doubao-Modelle (TikToks LLM).
  • CCBot (Common Crawl) Common Crawl. CCBot ist der Crawler von Common Crawl — einem öffentlichen Web-Archiv.

Such-Crawler (3)

  • OAI-SearchBot OpenAI. OAI-SearchBot indexiert Webseiten für die ChatGPT-Live-Suche.
  • Claude-SearchBot Anthropic. Claude-SearchBot indexiert das Web für Claudes Suchfunktion.
  • PerplexityBot Perplexity. PerplexityBot ist der Haupt-Crawler von Perplexity.

User-Fetch-Bots (3)

  • ChatGPT-User OpenAI. ChatGPT-User holt eine Seite live, wenn ein Nutzer ChatGPT bittet, eine bestimmte URL zu lesen.
  • Claude-User Anthropic. Claude-User holt eine URL live, wenn ein Nutzer Claude darum bittet.
  • Perplexity-User Perplexity. Perplexity-User holt eine URL live, wenn ein Nutzer eine konkrete Recherche anstößt.

Wie unser Checker funktioniert

Sie geben oben Ihre Domain ein (zum Beispiel ihre-domain.de), wir bauen daraus die Adresse https://ihre-domain.de/robots.txt und laden diese Datei live von Ihrem Server. Anschließend parsen wir die Datei nach dem Robots-Exclusion-Standard und gleichen jede Regel mit unserer Liste der zwölf bekannten AI-Crawler ab.

Pro Bot zeigen wir vier mögliche Status:

  • Erlaubt — Es gibt entweder einen expliziten User-Agent-Block ohne Disallow oder gar keine Regel, also greift die implizite Standardregel „alle erlaubt“.
  • Blockiert — Ein expliziter Disallow auf / oder eine spezifische Wildcard-Regel sperrt den Bot komplett aus.
  • Teilweise blockiert — Manche Pfade sind verboten, andere erlaubt. Meist unproblematisch (zum Beispiel /admin gesperrt, Rest offen).
  • Über Wildcard erlaubt — Sie haben keinen spezifischen Block, der Bot fällt auf die User-agent: * Regel zurück. Funktional erlaubt, aber weniger Kontrolle.

Wir speichern nichts. Jede Anfrage geht an unseren Server, lädt einmal Ihre robots.txt und gibt das Ergebnis zurück. Kein Account, keine E-Mail, kein Tracking-Cookie für diese Funktion.

robots.txt richtig schreiben — Beispiel für AI-Sichtbarkeit

Wenn Sie ChatGPT, Claude und Perplexity gezielt erlauben, aber das Training für zukünftige Modelle blocken wollen, sieht ein typischer Block so aus:

# Training blocken (kein Sichtbarkeitsverlust heute)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Live-Suche und Nutzer-Abruf erlauben (Sichtbarkeit erhalten)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Sitemap nicht vergessen
Sitemap: https://ihre-domain.de/sitemap.xml

Wichtig: Die Datei muss exakt im Root liegen, also https://ihre-domain.de/robots.txt — Unterverzeichnisse funktionieren nicht. Die Bot-Namen sind case-insensitive, aber der Standard schreibt sie wie oben.

Was robots.txt nicht kann

robots.txt ist eine Höflichkeitsbitte, kein technischer Block. Drei Bots respektieren sie unzuverlässig oder gar nicht:

  • Perplexity-User ignoriert robots.txt — von Perplexity öffentlich bestätigt.
  • PerplexityBot respektiert es teilweise — laut mehreren Audits nicht zuverlässig.
  • Bytespider (ByteDance/Doubao) ist für aggressives Crawling ohne Rücksicht auf robots.txt bekannt.

Wer diese Bots wirklich blocken will, braucht Server-Side-Filtering — entweder eine Regel im Reverse-Proxy (NGINX, Apache), eine WAF-Rule in Cloudflare/AWS, oder ein IP-Range-Block. Die Anbieter publizieren ihre IP-Ranges (OpenAI: openai.com/gptbot.json; Perplexity in der Doku). Das ist Aufwand und nicht Teil dieses Tools — aber wir bauen das auf Wunsch in einem GEO-Audit für Sie ein.

Häufige Fragen zum AI-Crawler-Check

Was ist ein AI-Crawler überhaupt?

Ein Programm, das im Auftrag von OpenAI, Anthropic, Google, Perplexity und Co. Webseiten liest — entweder um damit KI-Modelle zu trainieren (GPTBot, ClaudeBot) oder um Live-Antworten in ChatGPT, Claude oder Perplexity mit aktuellen Quellen zu unterfüttern (OAI-SearchBot, PerplexityBot, Claude-SearchBot). Drei Typen: Trainings-, Such- und User-Abruf-Crawler.

Warum sollte mich das interessieren?

Wenn Sie wollen, dass ChatGPT, Claude oder Perplexity Ihre Webseite kennen und zitieren, müssen Sie die richtigen Crawler reinlassen. Viele Mittelständler haben die robots.txt vor Jahren angelegt und blocken aus Versehen genau die Bots, die heute über AI-Sichtbarkeit entscheiden. Unser Tool zeigt das in zwei Sekunden pro Domain.

Was prüft das Tool genau?

Wir laden die robots.txt Ihrer Domain (zum Beispiel https://ihre-domain.de/robots.txt), parsen die Regeln und gleichen sie mit der aktuellen Liste der relevanten AI-Crawler ab. Für jeden Bot zeigen wir: erlaubt, blockiert, teilweise blockiert oder nur über die Wildcard-Regel erfasst. Inklusive Auswirkungs-Erklärung pro Bot.

Welche Bots werden geprüft?

Aktuell zwölf Bots aus den vier wichtigsten Ökosystemen: OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User), Anthropic (ClaudeBot, Claude-SearchBot, Claude-User), Perplexity (PerplexityBot, Perplexity-User), Google-Extended für Gemini-Training, Applebot-Extended für Apple Intelligence, plus Bytespider (ByteDance/Doubao) und CCBot (Common Crawl — Grundlage fast aller Open-Source-LLMs).

Was bedeutet 'Status: teilweise blockiert'?

Der Bot ist nicht vollständig gesperrt, aber bestimmte Pfade Ihrer Seite sind verboten. Klassisches Beispiel: /admin oder /search ist disallowed, aber der Rest erlaubt. Für AI-Sichtbarkeit meistens unproblematisch — wenn Sie unsicher sind, prüfen Sie die einzelnen Regeln im Detail (klick auf 'robots.txt einsehen' im Tool).

Warum sagt das Tool 'Wildcard-Regel'?

Ihre robots.txt hat keinen Block speziell für diesen Bot, fällt aber auf die User-agent: * Wildcard zurück. Das heißt: der Bot ist über die allgemeine Regel erfasst, nicht über eine bot-spezifische. Funktional gleich, aber Sie haben weniger Kontrolle.

Reicht es, robots.txt zu setzen, oder muss ich mehr tun?

Für die meisten Bots ja — GPTBot, ClaudeBot, Google-Extended, Applebot-Extended und CCBot respektieren robots.txt zuverlässig. Drei Bots tun das nicht oder nur teilweise: Perplexity-User (öffentlich bestätigt), PerplexityBot (teilweise) und Bytespider (bekannt für Ignorieren). Wer diese wirklich blocken will, braucht Server-Side-Filtering auf User-Agent-Ebene (Reverse-Proxy, Cloudflare WAF) oder IP-Range-Blocks.

Sollte ich ChatGPT, Claude und Perplexity erlauben oder blockieren?

Faustregel: Search- und User-Fetch-Bots erlauben (sie bringen Sichtbarkeit in Live-Antworten), Trainings-Bots können Sie nach Geschmack blockieren — ohne Sichtbarkeitsverlust. Konkret: OAI-SearchBot, PerplexityBot, Claude-SearchBot, ChatGPT-User, Claude-User unbedingt erlauben. GPTBot, ClaudeBot, Google-Extended, CCBot können Sie blocken, falls Ihnen unbehaglich ist, dass Ihre Texte ins Training fließen.

Ist das Tool kostenlos? Brauche ich einen Account?

Komplett kostenlos, keine Anmeldung, keine E-Mail nötig. Wir speichern Ihre Eingabe nicht dauerhaft — die Anfrage geht direkt an unseren Server, lädt die öffentliche robots.txt Ihrer Domain und wertet sie aus. Datenstand der Bot-Liste: Juni 2026, wir aktualisieren bei neuen Bots.

Was, wenn ich keine robots.txt habe?

Dann sagt das Tool 'Keine robots.txt gefunden' und alle Bots gelten implizit als erlaubt — das ist der HTTP-Standard. Wenn Sie gezielt Kontrolle wollen, legen Sie eine Datei /robots.txt im Root Ihrer Domain an. Wir bauen Ihnen das auf Wunsch zusammen mit einer Strategie ein (siehe GEO-Audit).

Sie wollen das nicht selbst pflegen?

Wir machen einen vollständigen GEO-Audit Ihrer Domain (robots.txt, llms.txt, Schema, Entity-Coverage, AI-Mentions) und liefern eine schriftliche Roadmap. Festpreis 1.490 €.

AnrufenTermin buchen