Sprache:
Mann und Frau programmieren am Computer

Datenqualität: Standards für bessere KI und mehr Effizienz

Veröffentlicht am 31.10.2022

Daten sind der Treibstoff für künstliche Intelligenz (KI) und vor allem in der Forschung längst eine Währung. Allerdings ist es nicht immer gut um ihre Qualität bestellt. Das weiß Prof. Dr. Felix Naumann vom Hasso-Plattner-Institut (HPI) nur zu gut. Er beschäftigt sich intensiv mit dem Thema Datenqualität, auch im KI-Bereich. Ein Gespräch über Bad Files, Bad Data und Wölfe im Schnee.

Experteninterview
Prof. Dr. Felix Naumann
Prof. Dr. Felix Naumann
Quelle: HPI/K. Herschelmann

Machine learning braucht gute Trainingsdaten

Herr Prof. Dr. Naumann, der Begriff Datenqualität scheint auf den ersten Blick sehr klar umrissen. Wer genauer hinsieht, wird sich aber schnell fragen: Was ist denn genau damit gemeint?

Streng genommen bedarf es einer Unterscheidung zwischen Datenqualität und Informationsqualität. Allerdings vermischt sich beides in der Praxis oft. Ich als Informatiker würde den ersten Begriff mit handfesten technischen Kriterien verbinden. Und da bietet es sich durchaus an, festzulegen, wie Daten nicht sein sollten: fehlerhaft, veraltet, unvollständig oder schlichtweg schlecht formatiert. Erweitern wir den Begriff um die Informationsqualität, kommen noch viele Fragen hinzu: Wie gut sind Daten geschützt? Was kosten sie? Wie leicht sind sie verfügbar? Wie steht es um ihre Glaubwürdigkeit? Selbst wenn wir den Begriff Datenqualität breit fassen, gibt es wahrscheinlich noch 20 bis 30 weitere Dimensionen, die den Begriff näher beschreiben.

Sie haben einmal von „Bad Files“ und „Bad Data“ gesprochen …

Das sind natürlich recht reißerische Begriffe. Aber grundsätzlich meine ich mit Bad Files Folgendes: Daten kommen zunächst einmal als Datei daher – als CSV, als Excel-Spreadsheet und so weiter. Und bereits Dateien können Probleme in sich bergen. Sie können falsch formatiert sein oder uneinheitlich strukturiert, zum Beispiel, wenn sich in einer CSV-Datei plötzlich die Spaltenzahl ändert oder unten eine neue Tabelle auftaucht. Mitunter sind sogar noch Kommentare eingefügt oder Tabellentitel, die da nicht hingehören. Schlechte Dateien machen es schwierig bis unmöglich, Daten überhaupt erst in ein System zu laden. So langweilig „schlecht formatierte Dateien“ klingen mag, für Data-Scientists und Scientistinnen sind sie ein riesiges – und leider weitverbreitetes – Problem. Das gilt gerade bei Data-Lake-Szenarien. „Data Lake“ meint hierbei einen Datenspeicher, in dem – anders als in normalen Datenbanken – Daten aus vielen verschiedenen Quellen und unterschiedlichen Formaten in ihrer Rohform zusammengefasst sein können.

Und wenn die Dateien einmal im System sind?

Dann kann ich die Daten zumindest schon strukturiert lesen. Aber sie können falsch, veraltet, unvollständig oder nicht divers genug sein. Dann würde ich von Bad Data sprechen. Ein häufiges Problem sind Dubletten – mehrere Datensätze, die das gleiche Produkt oder dieselbe Person beschreiben. Unentdeckt können sie enormen Schaden anrichten. Welche Bank möchte schon einen Kredit zweimal an einen Menschen vergeben?

Ein nettes Beispiel. Da gibt es doch bestimmt noch weitere, weniger hypothetische …

Unfassbar viele – wobei der doppelt vergebene Kredit keineswegs hypothetisch ist. Ein ganz klassisches Beispiel für einen fehlerhaften Datensatz stammt aus Irland. Da trieb ein polnischer Autofahrer namens Prawo Jazdy sein Unwesen. Es gab kaum einen Verstoß gegen die Straßenverkehrsordnung, den er nicht begangen hatte. Er ging der Polizei zwar jedes Mal aufs Neue ins Netz, entkam jedoch stets seiner Strafe – weil unter keiner der von ihm angegebenen Adressen ein Mann seines Namens lebte. Zu seiner Ehrenrettung sei gesagt: Er konnte rein gar nichts dafür, hatte bei seiner Anschrift nicht einmal gelogen. Denn Prawo Jazdy ist kein Name, sondern das polnische Wort für Führerschein. Dieses landete so oft als Vor- und Zuname im System, dass daraus der rücksichtsloseste polnische Autofahrer Irlands wurde. Und wahrscheinlich hat die Jagd auf ihn die Ermittelnden gut beschäftigt.

Sie beschäftigen sich mit KI-spezifischen Dimensionen von Datenqualität. Verbergen sich hier noch ganz andere Kriterien?

Diese Kriterien sind tatsächlich gerade erst Gegenstand der Forschung. Ein paar Beispiele kann ich allerdings schon einmal nennen: So spielt etwa der Datenschutz eine viel größere Rolle. Er war natürlich schon immer relevant, allerdings hat die künstliche Intelligenz hier noch einmal viele neue Fragestellungen aufgeworfen. Ähnlich verhält es sich mit anderen Kategorien. Die Erklärbarkeit von Daten und ihren Modellen ist ebenfalls eine KI-spezifische Dimension. Genauso wie die Diversität von Daten. Eng damit verbunden wiederum ist das Thema Bias. Da geht es um die Frage, ob die Vielfalt der Daten gleichmäßig dargestellt ist oder ob bestimmte Daten überrepräsentiert sind. Außerdem beschäftigen wir uns mit dem Komplex Haftung. Denn allzu oft ist nicht hinreichend geklärt, wem Daten gehören und wer haftet, wenn sie nicht korrekt sind.

Welche Auswirkungen haben denn Bad Data im KI-Kontext?

Wenn ich ein Machine-learning-Modell mit falschen Daten füttere, lautet die Devise für gewöhnlich „Garbage in, Garbage out“. Aber es reicht schon, Daten nicht zu liefern, um schlechte Ergebnisse zu erzielen. Das KI-gestützte autonome Fahren leidet beispielsweise darunter, dass viele Situationen nicht trainiert worden sind. Wenn das Modell aufgrund unvollständiger Trainingsdaten noch nie ein Fahrrad im Regen gesehen hat, dann wird das Auto darauf nicht angemessen reagieren können. Ein berühmter Fall aus der Forschung betrifft die Bilderkennung. Dabei ging es nicht um Unvollständigkeit, sondern um mangelnde Diversität. Eine KI sollte lernen, zwischen Wölfen und Hunden zu unterscheiden. Beim Training erkannte die KI Fotos von Wölfen sehr zuverlässig. In der Praxis aber machte sie viele Fehler. Warum? Auf allen Trainingsbildern mit Wölfen war Schnee zu sehen. Das Modell lernte nicht, dass Wölfe anders aussehen als Hunde. Es erkannte lediglich den Schnee. Und nur wo der zu sehen war, könnte ein Wolf sein.

Wie lässt sich gegensteuern, damit die Datenqualität für KI-Anwendungen nicht zum Problem wird?

Bis vor ein paar Jahren war die Strategie, die Modelle zu verbessern – sie so zu trainieren, dass sie auch mit verschmutzten Daten arbeiten konnten. Tatsächlich gibt es da allerlei Tricks. Mittlerweile versucht die Forschung aber zunehmend, die Qualität der Trainingsdaten zu erhöhen. Es gilt, diese Daten zu bereinigen und die KI mit hochwertigem Input zu füttern.

Das klingt nach dem deutlich sinnvolleren Weg …

Im Grunde schon. Doch dieser Weg hat seine Hindernisse. Bei der KI, die zwischen Wölfen und Hunden unterscheiden sollte, waren die Fotos grundsätzlich von guter Qualität. Doch den Forschenden unterliefen unbewusste Fehler. Und man muss das relativ neue Thema Bias im Blick behalten. In den USA gibt es die berühmten COMPAS-Daten. Mit ihrer Hilfe soll künstliche Intelligenz eine Vorhersage treffen, inwieweit Menschen, die aus dem Gefängnis zur Bewährung entlassen werden könnten, strafrückfällig werden. Eine digitale Entscheidungshilfe für Richterinnen und Richter sozusagen. Die Trainingsdaten für die KI sind vergangene Entscheidungen. Bei diesen kamen Menschen mit dunkler Hautfarbe jedoch oftmals nicht gut weg, wurden aufgrund richterlicher Vorurteile benachteiligt. Entsprechend problematisch sind die Trainingsdaten und eine KI läuft Gefahr, ebenso vorurteilshaft zu entscheiden.

Gibt es denn Standards für gute Trainingsdaten?

Der Artificial Intelligence Act und der Data Act der Europäischen Union beinhalten einige Vorgaben, allerdings keine technischen. Genau hier setzt unsere Forschung an. Wir wollen technische Standards formulieren. Immer in dem Bewusstsein, dass es perfekte Daten nie geben wird.

Ihre Forschung findet im Rahmen des Projekts KITQAR statt, das eine Förderung der Denkfabrik Digitale Arbeitsgesellschaft im Bundesministerium für Arbeit und Soziales (BMAS) erhält. Was genau verbirgt sich hinter diesem Akronym?

KITQAR steht für „KI-Test- und -Trainingsdatenqualität in der digitalen Arbeitsgesellschaft“ und vereint die Bereiche Informatik, Rechtswissenschaft, Ethik und den Verband der Elektrotechnik Elektronik und Informationstechnik e. V., kurz VDE, als Normierungsorganisation. Gemeinsam wollen wir zunächst eine umfassende Definition von Datenqualität im KI-Kontext erarbeiten. Und zwar entlang der Professionen der Projektbeteiligten. Schließlich haben Expertinnen und Experten aus dem Bereich IT andere Ansprüche an Daten als Fachleute aus der Rechtswissenschaft oder Philosophie. Steht diese Definition, wollen wir im nächsten Schritt Qualitätsstandards für Test- und Trainingsdaten entwickeln. Ich denke da an Checklisten oder Leitlinien, anhand derer Entwickler und Entwicklerinnen sowie Anwender und Anwenderinnen von künstlicher Intelligenz prüfen können, ob ihre Daten angemessen sind. Einige Leitlinien werden sich technisch umsetzen lassen, andere, allen voran die ethischen, werden eine externe Einschätzung von Fachleuten erfordern.

Welche informatischen Themen sollen die Qualitätsstandards denn regeln?

Thema eins wäre die Diversität: Sind in allen relevanten Dimensionen auch alle Werte vertreten? Nehmen wir einmal die Dimension „Mensch“: Hier braucht es Standards, um sicherzustellen, dass in KI-Trainingsdaten, die sich um Menschen drehen, alle relevanten Gruppen angemessen repräsentiert sind. Bei Thema zwei kümmern wir uns um Standards für die Vollständigkeit der Daten. Ein richtig schwieriges Unterfangen, weil die Definition von „vollständig“ unklar ist. Thema drei dreht sich um Qualitätsvorgaben in Sachen Korrektheit. Wichtig: In allen drei Bereichen geht es um Definition und um das Messen von Datenqualität – aber noch nicht um die Bereinigung.

Wie funktioniert so eine Bereinigung von Daten denn klassischerweise?

Die beinhaltet viele verschiedene Schritte. Eine zentrale Aufgabe: fehlende Daten ersetzen. Dabei nutzen wir die sogenannte Imputation, die Werte erfindet, um Leerstellen zu füllen. Diese Werte sind vielleicht nicht die richtigen, stiften aber Sinn, weil sie beispielsweise einen Durchschnitt abbilden. Ein weiterer Schritt: das Korrigieren. Bei räumlichen Daten lässt sich vieles schnell beheben. Es ist relativ einfach überprüfbar, ob eine bestimmte Postleitzahl auch zur Straße und Hausnummer passt. Viele Fehler sind zudem über Businessregeln erkennbar. Nutzer und Nutzerinnen formulieren vorher, was an Daten stimmen muss, dann kann die technische Prüfung folgen.

In der Medizin ruhen große Hoffnungen auf Real-World Data, die im medizinischen Alltag anfallen. Braucht es nicht gerade hier Datenqualitätsstandards, um sie wirklich nutzbar zu machen?

Auf jeden Fall. Der Nutzen solcher Daten steht und fällt mit der Dokumentation. Und für die bleibt mitunter wenig Zeit – am Ende sollen ja schließlich der Patient und die Patientin und nicht der Papierkram im Vordergrund stehen. Umso wichtiger ist es dann, Datenqualität messen und verantwortungsvoll mit schlechten Daten umgehen zu können. Das heißt, sie nicht blind in ein maschinelles Modell zu gießen, sondern Daten vorher zu bereinigen oder mit dem womöglich fehlerbehafteten Modell zumindest sorgsam umzugehen.

Wie bewerten Sie eigentlich das Modell des Datentreuhänders mit Blick auf die Datenqualität?

Einen Treuhänder, der Daten für verschiedene Kunden verwaltet und die Erlaubnis hat, sie für einen Mehrwert zu verknüpfen, halte ich für sehr sinnvoll. Eine solche Stelle wäre ohne Frage im Sinne der Datenqualität.

Das könnte Sie auch interessieren

Artikel
Artikel
Artikel
Artikel
Artikel