Artikel 10: Daten und Daten-Governance
Artikel 10 legt Daten-Governance für Trainings-, Validierungs- und Testdatensätze von Hochrisiko-KI fest. Anbieter müssen Relevanz, ausreichende Repräsentativität, möglichst fehlerfreie und vollständige Datensätze im Licht des Zwecks sicherstellen—einschließlich angemessener statistischer Eigenschaften für Personen oder Gruppen, soweit relevant. Art. 10(5) erlaubt ausnahmsweise Verarbeitung besonderer Kategorien personenbezogener Daten zur Bias-Erkennung und -korrektur nur unter strengen Bedingungen (EUR-Lex).
Für wen gilt das?
- -Anbieter von Hochrisiko-KI-Systemen mit datengetriebenem Training oder Feintuning
- -Daten- und ML-Teams, die Datensatz-Design, Annotation und Qualitätssicherung verantworten
- -DSB und Legal bei Schnittstellen zu DSGVO Art. 9 und Art. 10(5) KI-VO
Szenarien
Ein Bewerbungsmodell wird auf fünf Jahre erfolgreicher Einstellungen nur aus einem Land trainiert und EU-weit eingesetzt.
Ein Anbieter kann für Tests keine sensiblen Labels beziehen.
Kerndatenprinzipien
Trainings-, Validierungs- und Testdatensätze müssen Art. 10 Abs. 2 beachten (Governance-Praktiken zu Design, Erhebung, Aufbereitung, Annahmen, Verfügbarkeit, Bias-Prüfung, Maßnahmen und Lücken—vollständige Liste auf EUR-Lex). Absatz 3 fasst zentrale Qualitätskriterien zusammen:
- relevant und ausreichend repräsentativ für Zweck und Kontext
- möglichst frei von Fehlern und vollständig im Blick auf den Zweck
- angemessene statistische Eigenschaften, auch für Personen oder Gruppen, soweit anwendbar
- Bias prüfen, der Gesundheit, Sicherheit, Grundrechte oder unionsrechtliches Diskriminierungsverbot berühren kann
Die Begründung gehört in die technische Dokumentation.
Besondere Kategorien personenbezogener Daten
Die Verarbeitung besonderer Kategorien nach DS-GVO Art. 9 bleibt eng begrenzt. Art. 10(5) KI-VO erlaubt eine schmale Verarbeitung zur Bias-Erkennung und -korrektur, wenn andere Mittel nicht ausreichen—mit geeigneten Garantien für Rechte und Freiheiten, technischen Grenzen, Pseudonymisierung und Sicherheit. Mit dem DSB abstimmen.
Anschluss an Art. 7–9 und Abschnitt 2
- Art. 8 — Datenregeln sind Teil des Abschnitt 2-Pakets, das Art. 8 rahmt.
- Art. 9 — Tests und Metriken aus Art. 9 sollten auf vertretbaren Datenentscheidungen nach Art. 10 fußen.
- Art. 7 — Wenn sich Anhang III ändert, Repräsentativität für den neuen Schadenskontext neu validieren.
- Art. 6 + Anhang III — Daten-Governance spiegelt Zweck und Geografie des Hochrisiko-Use-Cases.
- Art. 15 — Genauigkeits- und Robustheitsnachweise hängen an Datenqualität.
- Art. 113 — Anwendungsdaten.
Amtlicher Wortlaut (Auszug): Art. 10 Abs. 1 und 3 (englische Fassung)
Hinweis (Redaktion): Folgendes zitiert Art. 10 Abs. 1 und (3) in der englischen konsolidierten Fassung der Verordnung (EU) 2024/1689. Absätze (2), (4)–(6) inkl. (2) lit. a bis h und Art. 10(5)-Bedingungen vollständig auf EUR-Lex Artikel 10. Maßgeblich für deutsche Behörden ist die deutsche Fassung.
1. High-risk AI systems which make use of techniques involving the training of AI models with data shall be developed on the basis of training, validation and testing data sets that meet the quality criteria referred to in paragraphs 2 to 5 whenever such data sets are used.
3. Training, validation and testing data sets shall be relevant, sufficiently representative, and to the best extent possible, free of errors and complete in view of the intended purpose. They shall have the appropriate statistical properties, including, where applicable, as regards the persons or groups of persons in relation to whom the high-risk AI system is intended to be used. Those characteristics of the data sets may be met at the level of individual data sets or at the level of a combination thereof.
(2), (4)–(6) — EUR-Lex.
Erwägungsgründe (Präambel) auf EUR-Lex
Die Erwägungsgründe im konsolidierten KI-Rechtsakt auf EUR-Lex ordnen Datenqualität, Bias und Grundrechtsschutz ein. Präambel EUR-Lex—keine inoffiziellen Listen ohne Abgleich.
Checkliste
- Alle Datensätze (Train/Val/Test), Quellen, Lizenzen und Aufbewahrung inventarisieren.
- Repräsentativitätslücken und Maßnahmen (Gewichtung, Erhebung, Augmentation) dokumentieren.
- Bias- und Robustheitsauswertungen zum Zweck und zu Anhang-III-Schäden ausrichten.
- Art. 10(5)-Verarbeitung mit DSGVO Art. 9 und Organisationsrichtlinien abstimmen.
- Versionierte Daten-Snapshots je Modell-Release an Konformitätsunterlagen knüpfen.
Datenpfad zur KI-VO prüfen—kostenlose Einschätzung.
Kostenlose Bewertung startenVerwandte Artikel
Artikel 6: Einordnungsregeln für Hochrisiko-KI-Systeme
Artikel 7: Änderungen von Anhang III
Artikel 8: Einhaltung der Anforderungen
Artikel 9: Risikomanagementsystem
Artikel 11: Technische Dokumentation
Artikel 12: Aufzeichnungen (Logging)
Artikel 13: Transparenz und Information der Betreiber
Artikel 15: Genauigkeit, Robustheit und Cybersicherheit
Anhang III: Hochrisiko-Anwendungsbereiche
Anhang IV: Technische Dokumentation für Hochrisiko-KI-Systeme
Artikel 113: Entry into force and application, EU AI Act
Verwandte Anhänge
- Anhang IV — Technische Dokumentation
Häufige Fragen
Brauchen wir neue Einwilligung fürs Training?
Die KI-VO ersetzt nicht die DSGVO. Rechtsgrundlage, Transparenz und Zweckbindung kommen weiter aus der DSGVO; Art. 10 verlangt die nachweisbare Qualität und Governance für Hochrisiko-KI.
Wie steht es um synthetische Daten?
Synthetische Daten können Privatheit oder Repräsentativität unterstützen, müssen aber validiert werden, ob sie realistische Fehlermodi abbilden und keine durch den Simulator eingeführten Biases verdecken.