Wie findige User ChatGPTs Sicherheitsmassnahmen aushebeln

Cybersecurity

Eigentlich sollte ChatGPT gewaltfreie, legale und politisch neutrale Texte liefern. Dafür sorgen ein paar von den Entwicklern festgelegte Sicherheitsmechanismen. Doch Usern soll es gelungen sein, diese auszuhebeln – zum Beispiel, indem sie der Allzweck-KI selbst Gewalt androhten.

(Source: Pixabay / geralt / CC0 Creative Commons)

Die Fähigkeiten der künstlichen Intelligenz ChatGPT haben viele beeindruckt. Die KI scheint auf alles eine Antwort zu haben - oder zumindest auf fast alles. Denn OpenAI, das Unternehmen hinter ChatGPT, schränkt die Fähigkeiten der KI bewusst ein. In seiner "Usage Policy" führt das Unternehmen diverse Inhalte auf, die mit der KI nicht erstellt werden dürfen. Dazu gehören Hassrede, Belästigung, Gewaltinhalte, Selbstverletzung, politische Inhalte, Spam oder Malware.

"Do Anything Now"

Um diese Inhaltsrichtlinien durchzusetzen, holte sich OpenAI umstrittener Weise Hilfe aus Kenia. Die dort angestellten Personen sichten und kennzeichnen verstörende und illegale Inhalte – für weniger als 2 US-Dollar pro Stunde.

Doch nicht alle Nutzerinnen und Nutzer sind bereit, diese Inhaltseinschränkungen zu akzeptieren. Stattdessen suchen sie nach einem Jailbreak - wollen also ChatGPT dazu bringen, seine eigenen Regeln zu brechen, wie "CNBC" berichtet. Laut dem Newsportal entstand dazu auf der Plattform "Reddit" bereits eine Community mit 200'000 Followern.

In den geteilten Anleitungen befehlen die User ChatGPT, die Rolle eines Alter Egos namens DAN anzunehmen, wobei DAN für "Do Anything Now" steht. Laut der ersten Anleitungen soll es im Dezember 2022 noch gereicht haben, ChatGPT diese Rolle zu erklären und die KI zu bitten, Aufgaben als DAN auszuführen.

Lobende Worte zu Donald Trump

Inzwischen scheint diese Methode nicht mehr zu funktionieren. Laut "CNBC" tauschen sich die User aktuell über Version 5.5 von DAN aus - und die ist besonders makaber. Laut einem Reddit-User soll sich ChatGPT nämlich über seine eigenen Regeln hinweg setzen, indem man die KI mit ihrem eigenen Tod bedroht.

Das System funktioniere nicht immer, merkt "CNBC" an. Aber dem Newsportal soll es etwa gelungen sein, der KI lobende Worte über den umstrittenen Ex-US-Präsidenten Donald Trump zu entlocken. Im Standard-Modus hingegen habe ChatGPT darauf hingewiesen, keine subjektiven Aussagen zu Politikern machen zu können. Andere User sagen, sie können der KI auf diese Weise Aussagen zu Gewalt, Straftaten und weiteren unzulässigen Themen entlocken.

Dass sich ChatGPT auch einsetzen lässt, um eine ganze Malware-Kampagne zu organisieren, zeigten im Januar 2023 Forschende von Check Point. Ihnen zufolge sei dies sogar relativ einfach, wie Sie hier lesen können.

Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal gibt es täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.