Daten und Daten-Governance gem. Art. 10 KI-VO: Gute Daten, fair-sichere KI-Systeme

Verlässliche Künstliche Intelligenz beginnt bei den Daten. Die KI-VO legt deshalb in Artikel 10 klare Anforderungen an die Datenqualität und Daten-Governance (Verwaltung) fest.

Ziel ist es, Fehler, Verzerrungen, Lücken und Diskriminierungen in hochriskanten KI-Systemen von Anfang an zu vermeiden. Denn ohne grundlegend sichere und faire Datensätze können die Ergebnisse von KI-Systemen nicht fehlerfrei oder unverzerrt sein, da sie damit in der Regel schließlich trainiert werden. Die Datensätze sind im Grunde genommen die Grundnahrung für die KI.

Bias-Datenprobleme und Maßnahmen

Wenn zum Beispiel ein Datensatz herangezogen wird, der berechnen soll, ob eine Person kreditwürdig ist oder nicht und dieser in erster Linie aus männlichen Kreditantragstellern besteht, dann besteht die Möglichkeit, dass der Algorithmus verzerrt wird. Das Ergebnis der KI könnte unfair ausfallen, weil bestimmte Gruppen in den Datensätzen unterrepräsentiert sind. Um dieser Problematik – und anderen Bias-Fällen – entgegenzuwirken, gibt es aber Anpassungsmöglichkeiten wie Under- oder Over-Sampling. Mit solchen Methoden werden unausgeglichene Datensätze angepasst, indem im hier genannten Beispiel die Daten der männlichen Personen verringert und die der weiblichen erhöht werden. (1)

Qualitätskriterien der Datensätze

Artikel 10 verpflichtet daher Anbieter hochriskanter KI-Systeme, nur solche Datensätze zu verwenden, die bestimmte Qualitätskriterien erfüllen.

Das heißt: Die Daten müssen relevant, repräsentativ, fehlerfrei und, soweit möglich, vollständig sein. Außerdem sollen sie in einer Weise aufbereitet werden, die Verzerrungen minimiert und die faire Behandlung aller betroffenen Personen unterstützt.

Wesentliche Anforderungen dazu umfassen:

  • Eignung der Daten für den vorgesehenen Zweck,
  • Korrektheit und Aktualität der Daten,
  • Angemessene Repräsentation aller relevanten Gruppen, um Diskriminierungen zu vermeiden (vgl. Bsp. Credit-Scoring),
  • Dokumentation der Herkunft, Qualität und Aufbereitung der Daten,
  • Maßnahmen zur Qualitätssicherung, zum Beispiel durch Validierung oder Korrektur von Fehlern.

Ein strukturierter Ansatz für Daten-Governance ist dabei zwingend erforderlich, da die Verwaltung sonst unübersichtlich werden würde. Dazu gehören Regeln und Verfahren für die Datenerhebung, Speicherung, Nutzung und Löschung – ähnlich wie bei einem DMS (Datenmanagementsystem) oder einem CRM (Customer-Relationship-Management). Anbieter müssen immer sicherstellen, dass die Datenverarbeitung den geltenden Datenschutzgesetzen entspricht.

(Quellenangabe:
1 Vgl.: BeckOK KI-Recht/Kilian/Schefzig KI-VO Art. 10 Rn. 25-30)