Datenschutzfragen von chatGPT: Das kommt auf uns zu

Das kürzlich von Italien verhängte Verbot von ChatGPT hat viel Aufmerksamkeit in den Medien erregt und eine Menge Kritik von Technologiebegeisterten hervorgerufen. Letzte Woche hat der Europäische Datenschutzausschuss (die EU-Institution, in der alle Datenschutzbeauftragten sitzen) eine Task Force zum Fall ChatGPT eingesetzt, und die Sache wurde noch interessanter.

(Update: seit dem 29. April ist ChatGPT in Italien wieder verfügbar. Die italienische Datenschutzbehörde hat noch keine neuen Entscheidungen zu ChatGPT veröffentlicht, aber eine Pressemitteilung zur Verfügung gestellt)

Diese Task Force könnte eine große Sache sein. Die rechtlichen Fragen, die ChatGPT aufwirft, sind nicht einzigartig: Tatsächlich sind die meisten von ihnen für generative KI gängige Probleme. Angesichts der Beteiligung des EDPB wird der Fall ChatGPT die Zukunft der generativen KI in der EU wahrscheinlich erheblich beeinflussen. Sehen wir uns also an, was genau passiert ist und welche rechtlichen Fragen auf dem Spiel stehen.

Tauchen wir ein!

Die Geschichte bis jetzt

Am 30. März veröffentlichte die italienische Datenschutzbehörde (GPDP) nach einer Untersuchung aus eigenem Antrieb eine Dringlichkeitsentscheidung, um die Tätigkeit von ChaptGPT auf italienischem Staatsgebiet vorläufig zu unterbinden. Die Behörde teilte später mit, dass sie mit dem Eigentümer von ChatGPT, Open AI, in Kontakt stehe und mögliche Wege erörtert habe, ChatGPT GDPR-konform zu machen.

Am 11. April veröffentlichte die GPDP eine weitere vorläufige Entscheidung über ChatGPT. Darin wurde OpenAI aufgefordert, mehrere Maßnahmen zur Einhaltung der Vorschriften zu ergreifen, und es wurde versprochen, dass das Verbot aufgehoben wird, wenn das Unternehmen bis zum 30. April die Vorschriften erfüllt.

Die zweite Entscheidung ist kein grünes Licht für ChatGPT. Die erste Entscheidung resultierte aus einem Dringlichkeitsverfahren und nicht aus einer eingehenden Untersuchung. Die GPDP kann die Datenverarbeitung von ChatGPT weiter untersuchen und bei Bedarf neue Entscheidungen erlassen.

Am 14. April schließlich gab der EDPB bekannt, dass er eine Task Force eingerichtet hat, die sich mit dem Fall ChatGPT befasst. Die Task Force wird sich bemühen, eine gemeinsame Basis zwischen den Behörden zu den rechtlichen Fragen zu finden, die der Fall ChatGPT aufwirft. Da die Datenschutzbehörden selbst an der Task Force beteiligt sind, wird ihre Arbeit Auswirkungen darauf haben, wie künftige Fälle in ganz Europa behandelt werden.

Update: Das Verbot ist seit dem 29. April wieder aufgehoben. Die GPDP erklärte in einer Pressemitteilung, dass es OpenAI gelungen ist, einige ihrer Forderungen zu erfüllen, darunter die Einrichtung von Systemen, die es ermöglichen, der Verarbeitung der Daten für die Übertragung des KI-Modells zu widersprechen, sowie die Löschung unrichtiger Daten. Andere Anforderungen müssen noch erfüllt werden, darunter die Einführung eines robusteren Altersverifikationssystems.

Die GDPD stellt außerdem fest, dass ihre Untersuchung von ChatGPT noch nicht abgeschlossen ist.

Welche rechtlichen Probleme gibt es mit ChatGPT?

Die Entscheidungen der GPDP sind recht knapp gehalten, was bei Eilverfahren üblich ist. Daher werden wir die vom GPDP aufgezeigten Probleme aus einer breiten Perspektive betrachten und sehen, was sie für generative KI im Allgemeinen bedeuten.

Bevor wir uns in die Tiefe stürzen, sollten wir beachten, dass ChatGPT Daten von zwei Kategorien von Personen (oder betroffenen Personen im juristischen Fachjargon) verarbeitet. ChatGPT wurde sowohl auf der Grundlage der Konversation mit den Nutzern als auch auf der Grundlage einer größeren Datenbank, die zuvor im Internet gesammelt wurde, trainiert (und wird ständig neu trainiert). Die Datenbank ist der Ort, an dem die wirklich großen Probleme entstehen, denn die Daten gehören zu Millionen von Menschen, die mit ChatGPT überhaupt nichts zu tun haben.

Rechtliche Grundlage

Das Hauptproblem ist das Fehlen einer Rechtsgrundlage. Wie in unserem Blog erläutert, benötigen Sie für die Verarbeitung personenbezogener Daten gemäß der DSGVO eine Rechtsgrundlage - im Wesentlichen eine rechtliche Rechtfertigung.

Daten von Nutzern sind keine große Sache, weil man einfach die Zustimmung einholen kann (OpenAI hat das nicht getan, aber das lässt sich leicht beheben). Das eigentliche Problem sind alle anderen - und mit "alle anderen" meinen wir so ziemlich die ganze Welt.

Laut den FAQ von OpenAI wurde ChatGPT auf "riesigen Datenmengen aus dem Internet, die von Menschen geschrieben wurden, einschließlich Unterhaltungen" trainiert. Aus den FAQ geht hervor, dass ChatGPT nicht mehr das Internet durchsucht, sondern dies bis 2021 tat (oder zumindest bis zu diesem Jahr mit gesammelten Daten gefüttert wurde). Unterm Strich könnte ChatGPT bis 2021 personenbezogene Daten von jedem verarbeiten, der Inhalte auf einer öffentlich zugänglichen Webseite geschrieben hat.

Das sind eine Menge personenbezogener Daten und eine große Verantwortung für Open AI. Für ein Unternehmen ist es nicht einfach, eine Rechtsgrundlage für die Verarbeitung von Tonnen von Daten von Personen zu finden, die nichts mit seinen Diensten zu tun haben. Aus diesem Grund sind Rechtsgrundlagen für generative KI im Allgemeinen ein großes Problem.

Wie könnte die Lösung aussehen? Eine Einwilligung kommt angesichts der Zahl der betroffenen Personen natürlich nicht in Frage. Das Gleiche gilt für die Rechtsgrundlage des Vertrags, da die meisten betroffenen Personen Chat GPT nicht selbst nutzen.

Ausgehend von der zweiten Entscheidung¹ glauben wir, dass die GPDP ein berechtigtes Interesse anstrebt. Das berechtigte Interesse ist eine heikle Rechtsgrundlage, da der für die Verarbeitung Verantwortliche sicherstellen muss, dass die Verarbeitung grundsätzlich nach Treu und Glauben erfolgt - erforderlichenfalls durch die Einführung von Garantien für die Rechte der betroffenen Personen. Diese Anforderungen sind nicht trivial, wenn man es mit einer Blackbox-KI zu tun hat, daher wird es interessant sein, zu sehen, welche Lösungen OpenAI vorlegt.

Transparenz

Der GPDP wies darauf hin, dass ChatGPD den betroffenen Personen keine Datenschutzhinweise zur Verfügung gestellt hat. Auch dies ist für die Nutzer leicht zu beheben, für alle anderen jedoch nicht so leicht, da OpenAI ein großes Publikum erreichen muss. Wie der GPDP betonte, wird OpenAI wahrscheinlich die Medien für eine groß angelegte Informationskampagne einschalten müssen.

Aber was ist mit all den anderen generativen KIs? Sollten sie alle dasselbe tun? Sollten wir, so albern es auch klingen mag, eine Zukunft erwarten, in der jede zweite Zeitungsanzeige ein Datenschutzhinweis für eine KI ist?

Ausübung der Datenrechte

Datenschutzhinweise sind wichtig, weil sie Sie über Ihre Rechte informieren (z. B. über die Möglichkeit, auf Ihre Daten zuzugreifen oder sie löschen zu lassen) und darüber, wie Sie diese ausüben können. In seiner zweiten Entscheidung ordnete das GPDP an, dass OpenAI den betroffenen Personen eine Möglichkeit zur Ausübung dieser Rechte bieten muss. Dies wird nicht trivial sein, insbesondere im Hinblick auf die Millionen von Nichtnutzern, deren Daten verarbeitet werden.

Ein ähnliches Problem tauchte in der Zeit vor der DSGVO auf, als die Menschen Google aufforderten, ihre persönlichen Daten aus der Google-Suche zu entfernen. So kam es zu Google Spain, einem bahnbrechenden Urteil des EU-Gerichtshofs, das das Recht auf Löschung im EU-Datenschutzrecht stärkte.

Die strikte Durchsetzung des Rechts auf Löschung und anderer Rechte der betroffenen Personen könnte dazu beitragen, einige der durch KI aufgeworfenen Datenschutzprobleme zu entschärfen. Aber bei der Google-Suche kann man einfach seinen Namen eingeben und sehen, was herauskommt. Bei einer KI ist das nicht annähernd so einfach.

Nehmen wir an, Sie fordern OpenAI auf, auf Ihre persönlichen Daten zuzugreifen. ChaptGPT muss zunächst alle Ihre personenbezogenen Daten aus dem Datensatz abrufen. Die Definition des Begriffs "personenbezogene Daten" in der Datenschutz-Grundverordnung ist recht weit gefasst, so dass das Abrufen Ihrer Daten mehr erfordert als nur das Filtern des Datensatzes nach Ihrem Namen oder anderen Identifikatoren (z. B. dem Benutzernamen eines Forums). Es werden anspruchsvollere technische Ansätze erforderlich sein, und höchstwahrscheinlich wird es keine Garantie dafür geben, dass ChatGPT alle Ihre personenbezogenen Daten korrekt abrufen kann.

Sollten wir einfach davon ausgehen, dass, wenn eine so fortschrittliche KI wie ChatGPT bestimmte Daten nicht als personenbezogene Daten erkennen kann, es in der Praxis sicher genug ist, sie nicht als solche zu behandeln? Dieser pragmatische Ansatz klingt gar nicht so schlecht und könnte sogar aus rechtlicher Sicht sinnvoll sein².

Aber ChatGPT wird von Tag zu Tag schlauer und erweitert seinen Datenbestand ständig durch Gespräche mit seinen Benutzern. Nur weil es heute bestimmte Daten nicht als personenbezogene Daten erkennen kann, heißt das nicht, dass es morgen nicht dazu in der Lage sein wird. Sollten die betroffenen Personen sicherheitshalber jeden Tag Zugriffsanfragen übermitteln? Sollte OpenAI den Datensatz regelmäßig überprüfen und jede einzelne betroffene Person, die in der Vergangenheit einen Antrag auf Auskunft gestellt hat, aktualisieren?

Auch das Recht auf Berichtigung und Aktualisierung der Daten erscheint problematisch. Alle Daten im ursprünglichen Trainingsdatensatz sind inzwischen zwei Jahre oder länger veraltet, was kein guter Anfang ist.

Außerdem können sowohl Eingabe- als auch Ausgabedaten personenbezogene Daten sein. Das bedeutet, dass Sie ein Recht auf eine korrekte Ausgabe Ihrer persönlichen Daten haben. Aber wie würden Sie überhaupt herausfinden, dass jemand, irgendwo, durch ChatGPT ungenaue Informationen über Sie erfahren hat? Und wie kann OpenAI sicherstellen, dass die Ausgabe von ChatGPT korrekt ist, wenn sie sich ständig ändert, sogar als Antwort auf identische Abfragen?

Die Authentifizierung von Anfragen wird ebenfalls ein Rätsel sein. Wenn Ihnen jemand eine Anfrage zum Zugriff auf seine Daten schickt, müssen Sie dieser nachkommen. Sie müssen aber auch sicherstellen, dass die Anfrage von der tatsächlich betroffenen Person stammt, um zu vermeiden, dass deren personenbezogene Daten an jemand anderen weitergegeben werden. Die Authentifizierung einer Anfrage kann knifflig sein, vor allem, wenn die betroffene Person nichts mit dem von Ihnen angebotenen Dienst zu tun hat (und nicht aufgefordert werden kann, ihre Identität durch Angabe bekannter Informationen, wie z. B. Anmeldedaten, nachzuweisen). OpenAI wird vielleicht schon bald mit vielen solchen Anfragen konfrontiert werden, und das wird kein Spaziergang sein.

Geringfügige Authentifizierung

Der GPDP wies darauf hin, dass OpenAI es versäumt hat, eine Altersauthentifizierung für die Nutzer zu implementieren, was es Minderjährigen von 13 Jahren ermöglicht, den Dienst zu nutzen und möglicherweise altersfremden Inhalten ausgesetzt zu sein. Dies ist wahrscheinlich nicht allzu relevant für KI im Allgemeinen, aber der Vollständigkeit halber sollte es dennoch erwähnt werden.

Wird das KI-Gesetz bei diesen Problemen helfen?

ChatGPT wirft mehrere rechtliche Fragen auf, und es wird interessant sein zu sehen, wie die EDPB-Taskforce diese behandeln wird. Aber natürlich liegt die Last der Regulierung von KI in der EU nicht allein bei der EDPB.

Die EU arbeitet an einem Verordnungsvorschlag, der als KI-Gesetz bekannt ist. Der Entwurf sieht ein umfangreiches Paket von KI-Vorschriften vor, darunter Standards für die Datenqualität und Pflichten zum Risikomanagement. Wird die bevorstehende Verordnung bei einigen der durch KI aufgeworfenen Datenschutzfragen helfen?

Bis zu einem gewissen Grad wird sie das wahrscheinlich. Aber sie wird nicht das Patentrezept sein.

Das KI-Gesetz ist sozusagen keine GDPR für KI. Es ist eigentlich kein Datenschutzgesetz: Sein Hauptaugenmerk liegt auf der Regulierung des EU-Marktes durch gemeinsame Sicherheitsstandards für KI-Produkte. Einige seiner Bestimmungen könnten die Privatsphäre stärken, aber das ist nicht sein Hauptziel.

Außerdem sind die strengsten Verpflichtungen im Rahmen des Gesetzes bestimmten Arten von KI-Systemen mit hohem Risiko vorbehalten, zu denen die generative KI im aktuellen Entwurf nicht gehört.

In naher Zukunft könnte das Europäische Parlament jedoch auf eine Überarbeitung des KI-Gesetzentwurfs drängen, um generative KI in die Hochrisikokategorie aufzunehmen, wie Euractiv berichtet. Das Risikoklassifizierungssystem ist einer der umstrittensten Punkte des Verordnungsentwurfs, und der Fall ChatGPT hatte sicherlich einen Einfluss auf den Sinneswandel des Parlaments.

Update: Das Europäische Parlament hat eine vorläufige Einigung über einen neuen Entwurf des KI-Gesetzesvorschlags erzielt. Der neue Vorschlag stuft generative KI wie ChatGPT als Systeme mit hohem Risiko ein.

Unabhängig davon sollten wir nicht erwarten, dass das KI-Gesetz alle durch KI aufgeworfenen Datenschutzfragen lösen wird. Die Datenschutz-Grundverordnung wird in dieser Hinsicht weiterhin von entscheidender Bedeutung sein, was die Arbeit der EDPB-Taskforce umso wichtiger macht.

Schlussfolgerung

Wir bei Simple Analytics glauben, dass Datenschutz wichtig ist. Aus diesem Grund bemühen wir uns, Neuigkeiten zum Datenschutz genau und verständlich zu erklären. Wir glauben, dass es keine datenschutzfreundliche Zukunft ohne eine datenschutzbewusste Öffentlichkeit geben wird.

Wir glauben auch, dass wir alle zum Schutz der Privatsphäre beitragen können. Aus diesem Grund haben wir ein Webanalyse-Tool entwickelt, das Ihnen alle erforderlichen Informationen liefert, ohne persönliche Daten zu sammeln und Besucher zu verfolgen. Der Datenschutz hat für uns absolute Priorität, und deshalb ist Simple Analytics so konzipiert, dass es mit weniger mehr erreicht. Wenn sich das für Sie gut anhört, können Sie uns gerne ausprobieren!

#1 Im GPDP wird erwähnt, dass die betroffenen Personen, einschließlich der Nichtnutzer, die Möglichkeit haben sollten, der Verarbeitung zu widersprechen. Dies ist ein guter Hinweis, da betroffene Personen nur dann ein Widerspruchsrecht haben, wenn die Verarbeitung auf einem berechtigten Interesse beruht, sowie in anderen spezifischen Situationen (siehe Artikel 21 DSGVO) [^2]: Es könnte plausibel argumentiert werden, dass die Daten in diesem Szenario nicht wirklich personenbezogene Daten im Sinne der DSGVO sind. Der Begriff der personenbezogenen Daten im Sinne der DSGVO ist kontextabhängig, was eine etwas seltsame Argumentation zulässt. Wenn Sie neugierig sind, lesen Sie Erwägungsgrund 26 der DSGVO und den Kommentar von gdprhub