CCBot (Common Crawl) per robots.txt blockieren
Wenn Sie CCBot (Common Crawl) komplett aussperren wollen, fügen Sie folgenden Block in Ihre /robots.txt ein:
User-agent: CCBot Disallow: /
CCBot (Common Crawl) respektiert robots.txt zuverlässig — eine korrekte Disallow-Regel reicht aus.
CCBot (Common Crawl) ausdrücklich erlauben
Falls Sie sicherstellen wollen, dass CCBot (Common Crawl) Zugriff hat — zum Beispiel weil Sie gezielt Sichtbarkeit in Common Crawl-KI erreichen wollen:
User-agent: CCBot Allow: /
Hinweis: Ein expliziter Allow überschreibt eine wildcardige Disallow-Regel auf User-agent: *. Wenn Sie also generell alle Bots sperren und nur CCBot (Common Crawl) reinlassen wollen, ist das die korrekte Schreibweise.
Sollten Sie CCBot (Common Crawl) blockieren?
Faustregel: Trainings-Crawler wie CCBot (Common Crawl) dürfen Sie blockieren, ohne Sichtbarkeit zu verlieren. Ihre aktuelle Präsenz in Common Crawl-KI bleibt unverändert — Sie verhindern nur, dass zukünftige Modelle mit Ihren Texten trainiert werden. Sinnvoll, wenn Sie urheberrechtliche oder strategische Bedenken haben. Nicht sinnvoll, wenn Sie hoffen, dass Sie irgendwann im Modell vorkommen.
Den Status für meine Domain prüfen
Wenn Sie wissen wollen, wie CCBot (Common Crawl) aktuell auf Ihre Domain zugreift, nutzen Sie unseren kostenlosen AI-Crawler-Checker. Domain eintragen, in zwei Sekunden sehen Sie den Status für CCBot (Common Crawl) und elf weitere relevante AI-Bots, inklusive der konkreten robots.txt-Regel, die für den Status verantwortlich ist.
Andere Trainings-Crawler im Vergleich
- GPTBot (OpenAI)
- ClaudeBot (Anthropic)
- Google-Extended (Google)
- Applebot-Extended (Apple)