Gegen unerwünschtes Abgreifen von Daten

Cloudflare schickt KI-Crawler ins verwirrende Daten-Labyrinth

Uhr
von Yannick Chavanne und Übersetzung: René Jaun, dda

Um Trainingsdaten für ihre grossen Sprachmodelle zu erhalten, grasen KI-Entwickler mithilfe spezieller Crawler das Internet ab. Nicht immer halten sich diese an die von den Websitebetreibern definierten Einschränkungen. Für solche Fälle hält Cloudflare ein besonderes Gegenmittel bereit.

(Source: Dan Asaki / unsplash.com)
(Source: Dan Asaki / unsplash.com)

Der US-amerikanische Hoster und CDN-Anbieter Cloudflare will das Problem der KI-Crawler lösen – also jener Bots, die das Internet durchforsten, um Trainingsdaten für KI-Modelle zu finden. Solche Bots gibt es zuhauf, und nicht immer halten sie sich bei ihrer Sammelei an die von den Websitebetreibern gesetzten Einschränkungen, wie Cloudflare 2024 in einer Untersuchung aufzeigte.

Einfaches Blockieren reicht nicht

Auf diese zu neugierigen Crawler reagiert Cloudflare mit dem "AI Labyrinth". Die Funktion blockiert zwar die Datensammelbots nicht, leitet sie aber auf sogenannte Dummy-Seiten um. Darauf stehen zwar Inhalte – sogar sachlich korrekte. Sie haben aber keine thematische Verbindung zur ursprünglichen Website. Die mithilfe generativer KI erstellten Texte basieren auf realen Daten aus Bereichen wie Mathematik oder Biologie, um die Verbreitung von Falschinformationen zu verhindern, wie Cloudflare erklärt.

Man verfüge bereits über verschiedene Tools, um nicht autorisierte AI-Crawler zu identifizieren und zu blockieren, erklärt Cloudflare. Das Unternehmen stellte aber fest, "dass das direkte Blockieren von AI-Crawlern die Angreifer aufschreckt und sie dazu bringt, ihre Methoden zu ändern, was zu einem endlosen Wettlauf führt. Daher wollten wir einen neuen Ansatz schaffen, um diesen unerwünschten Bots entgegenzuwirken, ohne dass sie es merken", erklärt der Dienstleister.

Reguläre User sollten nichts merken

Die vom KI-Labyrinth generierten Köderseiten sind für normale (menschliche) Nutzer unsichtbar, wie Cloudflare erklärt. Das Unternehmen fügt die entsprechenden Links unsichtbar in den HTML-Code ein. Jede erzeugte Seite enthält entsprechende Meta-Tags, um ihre Indexierung durch Suchmaschinen zu verhindern und so die natürliche Suchmaschinenoptimierung zu schützen. Werde ein versteckter Link aufgerufen, sei fast sicher ein automatisierter Crawler am Werk, schreibt Cloudflare. Das Unternehmen nutzt die Daten zu den Interaktionen mit diesen Links, um die Erkennungsfähigkeiten des Systems zu stärken.

Cloudflare bietet "AI Labyrinth" all seinen Kunden kostenlos an.

 

Die Hersteller von KI-Modellen nutzen Unmengen an Trainingsdaten ohne Einwilligung der Urheber. Kunstschaffende protestieren und klagen gegen KI-Unternehmen. Welche Änderungen sie fordern und was das Gesetz heute sagt, erfahren Sie im Hintergrundbericht.

 

Webcode
sgyZjYqW

Dossiers

» Mehr Dossiers

Aktuelle Ausgabe

Direkt in Ihren Briefkasten CHF 60.- » Magazin Abonnieren » Zum shop » Newsletter