IQONEX

Common Crawl · Trainings-Crawler

CCBot (Common Crawl): blockieren oder erlauben?

CCBot ist der Crawler von Common Crawl — einem öffentlichen Web-Archiv. Die Common-Crawl-Datensätze sind die Grundlage für fast jedes große LLM (GPT, LLaMA, Claude, viele Open-Source-Modelle).

Wirkung, wenn Sie CCBot (Common Crawl) blockieren

Ihre Inhalte fließen nicht in Common-Crawl-Datensätze ein — und damit in viele zukünftige LLM-Trainingsläufe nicht. Bestehende Modelle bleiben unberührt.

User-Agent-Token (für robots.txt): CCBot
Respektiert robots.txt: ja
Offizielle Doku von Common Crawl

CCBot (Common Crawl) per robots.txt blockieren

Wenn Sie CCBot (Common Crawl) komplett aussperren wollen, fügen Sie folgenden Block in Ihre /robots.txt ein:

User-agent: CCBot
Disallow: /

CCBot (Common Crawl) respektiert robots.txt zuverlässig — eine korrekte Disallow-Regel reicht aus.

CCBot (Common Crawl) ausdrücklich erlauben

Falls Sie sicherstellen wollen, dass CCBot (Common Crawl) Zugriff hat — zum Beispiel weil Sie gezielt Sichtbarkeit in Common Crawl-KI erreichen wollen:

User-agent: CCBot
Allow: /

Hinweis: Ein expliziter Allow überschreibt eine wildcardige Disallow-Regel auf User-agent: *. Wenn Sie also generell alle Bots sperren und nur CCBot (Common Crawl) reinlassen wollen, ist das die korrekte Schreibweise.

Sollten Sie CCBot (Common Crawl) blockieren?

Faustregel: Trainings-Crawler wie CCBot (Common Crawl) dürfen Sie blockieren, ohne Sichtbarkeit zu verlieren. Ihre aktuelle Präsenz in Common Crawl-KI bleibt unverändert — Sie verhindern nur, dass zukünftige Modelle mit Ihren Texten trainiert werden. Sinnvoll, wenn Sie urheberrechtliche oder strategische Bedenken haben. Nicht sinnvoll, wenn Sie hoffen, dass Sie irgendwann im Modell vorkommen.

Den Status für meine Domain prüfen

Wenn Sie wissen wollen, wie CCBot (Common Crawl) aktuell auf Ihre Domain zugreift, nutzen Sie unseren kostenlosen AI-Crawler-Checker. Domain eintragen, in zwei Sekunden sehen Sie den Status für CCBot (Common Crawl) und elf weitere relevante AI-Bots, inklusive der konkreten robots.txt-Regel, die für den Status verantwortlich ist.

Andere Trainings-Crawler im Vergleich

Häufige Fragen zu CCBot (Common Crawl)

Wie blockiere ich diesen Bot per robots.txt?

Tragen Sie folgenden Block in Ihre /robots.txt ein: User-agent: <Botname> \n Disallow: / — den exakten Botnamen finden Sie im Hero dieser Seite. Wichtig: Manche Bots respektieren das nicht zuverlässig, dann brauchen Sie Server-Side-Filtering.

Sollte ich ihn überhaupt blockieren?

Faustregel: Trainings-Bots können Sie blockieren ohne Sichtbarkeitsverlust. Search- und User-Fetch-Bots sollten Sie erlauben, sonst werden Sie in ChatGPT/Claude/Perplexity nicht zitiert. Welcher Typ dieser Bot ist, steht im Hero.

Wie prüfe ich den Status für meine Domain?

Nutzen Sie unser AI-Crawler-Checker-Tool (Link oben auf dieser Seite). Sie geben Ihre Domain ein, wir parsen Ihre robots.txt und zeigen den Status für alle zwölf relevanten AI-Bots inklusive der Auswirkung pro Bot.

Vollen GEO-Audit machen lassen?

Wir prüfen robots.txt, llms.txt, Schema, Entity-Coverage und AI-Mentions Ihrer Domain und liefern eine schriftliche Roadmap. Festpreis 1.490 €.

AnrufenTermin buchen