Cloudflare schickt KI-Crawler ins verwirrende Daten-Labyrinth
Um Trainingsdaten für ihre grossen Sprachmodelle zu erhalten, grasen KI-Entwickler mithilfe spezieller Crawler das Internet ab. Nicht immer halten sich diese an die von den Websitebetreibern definierten Einschränkungen. Für solche Fälle hält Cloudflare ein besonderes Gegenmittel bereit.

Der US-amerikanische Hoster und CDN-Anbieter Cloudflare will das Problem der KI-Crawler lösen – also jener Bots, die das Internet durchforsten, um Trainingsdaten für KI-Modelle zu finden. Solche Bots gibt es zuhauf, und nicht immer halten sie sich bei ihrer Sammelei an die von den Websitebetreibern gesetzten Einschränkungen, wie Cloudflare 2024 in einer Untersuchung aufzeigte.
Einfaches Blockieren reicht nicht
Auf diese zu neugierigen Crawler reagiert Cloudflare mit dem "AI Labyrinth". Die Funktion blockiert zwar die Datensammelbots nicht, leitet sie aber auf sogenannte Dummy-Seiten um. Darauf stehen zwar Inhalte – sogar sachlich korrekte. Sie haben aber keine thematische Verbindung zur ursprünglichen Website. Die mithilfe generativer KI erstellten Texte basieren auf realen Daten aus Bereichen wie Mathematik oder Biologie, um die Verbreitung von Falschinformationen zu verhindern, wie Cloudflare erklärt.
Man verfüge bereits über verschiedene Tools, um nicht autorisierte AI-Crawler zu identifizieren und zu blockieren, erklärt Cloudflare. Das Unternehmen stellte aber fest, "dass das direkte Blockieren von AI-Crawlern die Angreifer aufschreckt und sie dazu bringt, ihre Methoden zu ändern, was zu einem endlosen Wettlauf führt. Daher wollten wir einen neuen Ansatz schaffen, um diesen unerwünschten Bots entgegenzuwirken, ohne dass sie es merken", erklärt der Dienstleister.
Reguläre User sollten nichts merken
Die vom KI-Labyrinth generierten Köderseiten sind für normale (menschliche) Nutzer unsichtbar, wie Cloudflare erklärt. Das Unternehmen fügt die entsprechenden Links unsichtbar in den HTML-Code ein. Jede erzeugte Seite enthält entsprechende Meta-Tags, um ihre Indexierung durch Suchmaschinen zu verhindern und so die natürliche Suchmaschinenoptimierung zu schützen. Werde ein versteckter Link aufgerufen, sei fast sicher ein automatisierter Crawler am Werk, schreibt Cloudflare. Das Unternehmen nutzt die Daten zu den Interaktionen mit diesen Links, um die Erkennungsfähigkeiten des Systems zu stärken.
Cloudflare bietet "AI Labyrinth" all seinen Kunden kostenlos an.
Die Hersteller von KI-Modellen nutzen Unmengen an Trainingsdaten ohne Einwilligung der Urheber. Kunstschaffende protestieren und klagen gegen KI-Unternehmen. Welche Änderungen sie fordern und was das Gesetz heute sagt, erfahren Sie im Hintergrundbericht.

Amazon muss Rekordbusse blechen

Update: Kanton Zürich streicht Gesetzesartikel zur automatisierten Fahrzeugfahndung

Digitale Kriminalität nimmt in der Schweiz weiter zu

Weshalb man beim Gamen die Finger von Cheats lassen sollte

Kalte Füsse vor der Hochzeit

Cloudflare schickt KI-Crawler ins verwirrende Daten-Labyrinth

Cyberkriminelle stehlen Swiss-Life-Kundendaten

So bekommt man jeden Fleck raus

US-amerikanische Grenzbehörden schauen genau hin – auch aufs Handy
