DSGVO und KI-Development: Die drei Fragen, die du stellen solltest

Die meisten deutschen Unternehmen glauben, ihr KI-Entwicklungstool sei DSGVO-konform — weil es eine Datenschutzerklärung gibt. Aber die entscheidenden Fragen lauten: Wo geht mein Code hin? Wer kann ihn sehen? Und kann er in einem Trainings-Datensatz landen?

Wenn der Datenschutzbeauftragte klingelt

Jeder CTO, der KI-Development ernsthaft einführt, bekommt früher oder später Besuch vom Datenschutzbeauftragten. Das Gespräch beginnt meist harmlos: Welche Tools nutzen eure Entwickler? Copilot? Cursor? Claude? Und dann kommt die Frage, auf die die wenigsten vorbereitet sind: Wo wird euer Code verarbeitet — und wer kann ihn sehen?

Das ist kein theoretisches Problem. Die Datenschutzkonferenz (DSK) der deutschen Aufsichtsbehörden hat 2024 konkrete Leitlinien für den KI-Einsatz veröffentlicht. Sie bevorzugt ausdrücklich geschlossene Systeme, die Daten nicht an Dritte weitergeben, und fordert für jede Datenverarbeitung eine dokumentierte Rechtsgrundlage. Wer da mit "wir haben eine Privacy Policy" antwortet, hat ein Problem.

Die Annahme, dass ein KI-Tool DSGVO-konform ist, weil es eine Datenschutzseite gibt, ist weitverbreitet — und falsch. Drei Fragen trennen die Teams, die es wirklich durchdacht haben, von allen anderen.

Klingt interessant?

Jetzt kostenlos ausprobieren

Frage 1: Wo geht mein Code hin?

Bei GitHub Copilot Business und Enterprise ist die Antwort klar dokumentiert: Microsoft verarbeitet die Anfragen auf der globalen Azure-Infrastruktur — ohne spezifische EU-Data-Residency-Garantie für Copilot. Wer als Free- oder Pro-Nutzer arbeitet, erhält nicht einmal einen Auftragsverarbeitungsvertrag (AVV); die GitHub-Datenschutzerklärung gilt, und Prompts können für Trainingsverbesserungen verwendet werden, wenn man nicht aktiv widerspricht.

Bei Cursor ist die Situation weniger bekannt, aber mindestens so relevant: Selbst wer seinen eigenen API-Key einträgt, schickt Anfragen durch Cursor's eigenes Backend — das ist explizit in der Datenschutzdokumentation festgehalten. Inference-Provider wie Baseten, Together AI und Fireworks (alle US-basiert) können Modell-Inputs temporär speichern. EU-Datenhaltung existiert als Option nicht.

Anthropic verarbeitet Claude-Anfragen standardmäßig auf US-Infrastruktur. Eine EU-Data-Residency-Option gibt es für Enterprise-Kunden, sie ist aber nicht der Standard und muss explizit vereinbart werden.

Das klingt abstrakt, ist es aber nicht: Wenn dein Code in einem US-Rechenzentrum landet, gilt US-Recht. Einschließlich FISA Section 702 — dem US-Geheimdienstgesetz, das amerikanische Cloud-Anbieter verpflichtet, Behörden auf Anfrage Zugang zu Daten zu gewähren. Dieses Risiko lässt sich durch Standardvertragsklauseln (SCCs) nicht vollständig beseitigen, wie der Europäische Gerichtshof in Schrems II klargestellt hat.

Frage 2: Trainiert mein Code KI-Modelle?

Das ist die Frage, die die meisten CTOs gar nicht stellen — und die für Unternehmen mit proprietärem Code existenziell ist.

Bei GitHub Copilot Free und Pro: Ja, standardmäßig können Prompts und Vorschläge für Modellverbesserungen genutzt werden. Es gibt einen Opt-out in den Account-Einstellungen — aber ein Opt-out ist nicht dasselbe wie ein vertraglicher Ausschluss, und er muss aktiv gesetzt werden. Business- und Enterprise-Kunden sind hier besser gestellt: für sie gilt kein Training auf Kundendaten, und GitHub bietet einen downloadbaren AVV an.

Bei Cursor hängt alles am "Privacy Mode". Ist er ausgeschaltet — was für Accounts, die nach dem 15. Oktober 2025 erstellt wurden, offenbar die Ausgangssituation sein kann — dürfen Code-Daten, Prompts und Editor-Aktionen für KI-Training verwendet werden. Mit aktiviertem Privacy Mode gilt Zero Data Retention. Wer das nicht weiß, trainiert möglicherweise gerade Cursors nächste Modellversion mit dem eigenen Produktionscode.

Das ist keine Kleinigkeit. Proprietärer Code, der in ein Trainingsset einfließt, könnte — in Fragmenten — bei anderen Nutzern auftauchen. Ob das realistisch passiert, ist eine andere Diskussion. Ob ihr es vertraglich ausgeschlossen habt, ist eine Compliance-Frage.

Frage 3: Habt ihr einen AVV — und steht darin, was drin stehen muss?

Ein Auftragsverarbeitungsvertrag nach Art. 28 DSGVO ist Pflicht, sobald ein Dienstleister personenbezogene Daten im Auftrag verarbeitet. Code selbst ist selten personenbezogen — aber Test-Fixtures mit echten Kundendaten, Kommentare, Commit-Messages und Konfigurationsdateien können es sein.

GitHub bietet für Business- und Enterprise-Kunden einen frei herunterladbaren AVV an, der Copilot explizit einschließt. Das ist im Marktvergleich vorbildlich. Cursor hat ein DPA, aber keine öffentlich zugängliche, sofort nutzbare Version im GitHub-Stil. Bei vielen kleineren Tools gibt es schlicht nichts.

Was in einem guten AVV stehen muss: Zweck und Dauer der Verarbeitung, Liste der Sub-Prozessoren (inklusive deren Standorten), technische und organisatorische Maßnahmen und — das ist der Kern — eine eindeutige Aussage dazu, dass Daten nicht für das Training Dritter verwendet werden. Ein AVV, der diesen Punkt ausspart oder nur vage formuliert, schützt euch nicht.

Was DSGVO-konform wirklich bedeutet

DSGVO-Konformität bei KI-Development ist kein Häkchen-Thema. Es ist eine Frage der Systemarchitektur: Wo läuft das Modell? Wer kann auf die Prompts zugreifen? Verlässt Code überhaupt die eigene Infrastruktur?

Genau das ist der Ausgangspunkt von nopex. Die Plattform ist nicht im Nachhinein auf Compliance zugeschnitten worden — EU-Infrastruktur, kein Training auf Kundendaten und ein verfügbarer AVV sind Teil des Architekturdesigns. Code verlässt nicht ohne Grund die eigene Infrastruktur; Datenverarbeitung findet innerhalb der EU statt. Das ist kein Versprechen, das sich aus einer Datenschutzerklärung lesen lässt — es ist dokumentiert und vertraglich festgehalten.

Für Unternehmen, die KI-gestützte Softwareentwicklung einführen wollen, ohne sich drei Stunden mit einem Anwalt über FISA 702 und Sub-Prozessoren unterhalten zu müssen, ist das der praktische Unterschied.

Wenn du wissen willst, wie nopex DSGVO-Compliance konkret umsetzt: nopex.cloud

DSGVO und KI-Development: Die drei Fragen, die du stellen solltest

Wenn der Datenschutzbeauftragte klingelt

Frage 1: Wo geht mein Code hin?

Frage 2: Trainiert mein Code KI-Modelle?

Frage 3: Habt ihr einen AVV — und steht darin, was drin stehen muss?

Was DSGVO-konform wirklich bedeutet

Bereit, dein Projekt zu starten?

Weitere Artikel

Zwölf Agenten, sechs reden mit niemandem: Der Agenten-Wildwuchs ist da

Vom Seat zum Token: Warum Usage-Based Pricing euer Entwicklungsbudget unkalkulierbar macht

DSGVO und KI-Development: Die drei Fragen, die du stellen solltest

Wenn der Datenschutzbeauftragte klingelt

Frage 1: Wo geht mein Code hin?

Frage 2: Trainiert mein Code KI-Modelle?

Frage 3: Habt ihr einen AVV — und steht darin, was drin stehen muss?

Was DSGVO-konform wirklich bedeutet

Bereit, dein Projekt zu starten?

Weitere Artikel

Zwölf Agenten, sechs reden mit niemandem: Der Agenten-Wildwuchs ist da

Vom Seat zum Token: Warum Usage-Based Pricing euer Entwicklungsbudget unkalkulierbar macht