
Live-Abfrage, ob Ihre Website im offenen Webarchiv von Common Crawl (CDX-API) enthalten ist. Geben Sie eine bestimmte URL ein, um das letzte Erfassungsdatum zu überprüfen, oder geben Sie einen Domainnamen ein, um 15 Seiten anzuzeigen, die vom Crawler (CCBot) indexiert wurden.
Common Crawl Index Checker
Prüfe eine dedizierte URL dhemant.consulting/kunde-werden/ um genau ihren Status zu prüfen, oder eine Root-Domain dhemant.consulting um die ersten 15 URLs abzufragen.
Funktionen SEO-Tool Common Crawl Index Checker v8.3
AJAX-gesteuerte Architektur
Verwendet standardmäßige WP-AJAX-Endpunkte, um Daten asynchron abzurufen, wodurch ein Neuladen der Seite und Layoutverschiebungen vermieden werden.
Intelligente Abfrageweiterleitung
Unterscheidet automatisch zwischen verschiedenen Eingabetypen: Absolute URLs löst eine exakte Suche (limit=1) zur Statusüberprüfung aus. Root-Domain löst eine Wildcard-Suche (/*.) aus, um indizierte Seiten zu finden.
Heuristische Priorisierung
Nachbearbeitung der Domain-Ergebnisse durch Deduplizierung der Einträge und Sortierung nach URL-Zeichenfolgenlänge, um die Top-15 Seiten (Homepage, Über uns, Kontakt usw.) zurückzugeben.
Ausfallsichere Konnektivität
Leitet Anfragen über einen Proxy weiter, um CORS-Fehler, 403-Blocks und Firewall-Einschränkungen auf Host-Ebene zu umgehen.
Dynamische Indexverwaltung
Ruft automatisch die Live-Liste der Common Crawl-Indizes aus collinfo.json ab und speichert sie über WordPress Transients für 24 Stunden im Cache.
Sicherheit
Implementiert WordPress Nonces für Sicherheit und bereinigt alle Ein- und Ausgänge, um XSS zu verhindern.
Tool-Beschreibung für SEO
Verschaffen Sie sich mit dem Common Crawl Index Checker einen sofortigen Überblick darüber, wie das offene Web Ihre Website sieht. Mit diesem kostenlosen SEO-Tool, entwickelt und bereitgestellt von der DHEMANT Consulting GmbH, können Sie überprüfen, ob Ihre wichtigsten Seiten von dem riesigen Datensatz indexiert werden, der KI-Modelle wie ChatGPT und wichtige Backlink-Recherchetools antreibt. Geben Sie einfach eine bestimmte URL ein, um den letzten Erfassungszeitstempel zu bestätigen, oder geben Sie eine Domain ein, um die 15 Seiten im Archiv anzuzeigen. So können Sie Ihren digitalen Fußabdruck überprüfen und sicherstellen, dass Ihre Inhalte möglicherweise in die Trainsingsdaten der Large Langue Models (LLMs) eingeflossen sind.
SEO-Tool zum abfragen der Common Crawl CDX-API
Dieses kostenlose SEO-Tool ermöglich das Abfragen der Common Crawl CDX-API, um den URL-Indexierungsstatus einer Seite zu überprüfen. Das AJAX-Tool verfügt über eine automatisch aktualisierte Indexliste und intelligentes Routing.
Inhaltsverzeichnis
Absolute URLs lösen eine exakte Suche (limit=1) aus, während Domain-Root-Abfragen eine Wildcard-Suche auslösen, die Duplikate entfernt, nach URL-Länge sortiert und ersten 15 Ergebnisse zurückgibt.
Alle API-Anfragen werden über einen Proxy geleitet, um CORS und IP-Blocks auf Host-Ebene zu umgehen.

Common Crawl ist Trainingsdaten vieler LLM (ChatGPT, Claude etc.)
Common Crawl ist eine gemeinnützige Stiftung, die seit 17 Jahren ein frei zugängliches Archiv des World Wide Web pflegt. Mit einem Bestand von rund 275 Milliarden Seiten und einem Datenvolumen von über 9 Petabytes (PB) (Stand Ende 2024) stellt die Organisation eine der wichtigsten Ressourcen für die Forschung und die Entwicklung künstlicher Intelligenz dar.
Während webbasierte Daten in der frühen Phase der Large Language Models (LLMs) aufgrund von Rauschen kritisch betrachtet wurden, bilden sie heute mit einem Anteil von bis zu 80 % das Fundament für das Pre-training moderner Sprachmodelle.
Common Crawl zeichnet sich durch einen verantwortungsbewussten Crawling-Ansatz aus, der CCBot respektiert geltende Standards (robots.txt) und es wird aktiv an neuen Protokollen für die Signalisierung von KI-Präferenzen arbeitet.


Gewinnen Sie handfeste und datenbasierte SEO-Handlungsempfehlungen, anstatt sich auf Ihr Bauchgefühl verlassen zu müssen (oder auf das lediglich angelesene Buchwissen Dritter).

