INHALT

Teil III
Qualitäten von Daten

Das Problemfeld Trainingsdaten

Wir haben den letzten Teil mit der Beobachtung abgeschlossen, dass Trainingsdaten unvollständig und falsch sein können. Falsch können die Trainingsdaten in zwei Ausprägungen sein: Die Eingabedaten können falsch sein, und die Ausgaben ebenfalls. Denken Sie an falsche Laborwerte und an Fehldiagnosen.

Unvollständig können die Trainingsdaten in vier Ausprägungen sein: Wenn sie nicht die relevanten Faktoren erfassen, sind sie erstens schlicht inadäquat. Wenn wir Bilder von FußgängerInnen nur bei schönem Wetter aufnehmen, können wir eigentlich nur hoffen, dass später auch FußgängerInnen bei Regenwetter erkannt werden. Wenn man nicht verstanden hat, dass Helicobacter pylori kausal für Magengeschwüre ist und die Eingabedaten keine Informationen über das Vorkommen des Bakteriums beinhalten, wird man den Zusammenhang zwischen Helicobacter und Geschwüren offensichtlich nie erkennen können und stattdessen vielleicht Stress als Ursache identifizieren. Das bezieht sich also auf die Auswahl der relevanten Faktoren als Teil der Eingabedaten.

Zweitens haben wir gesehen, dass wir für das Lernen als Teil der Beispiele auch die entsprechenden Ausgaben in den Trainingsdaten benötigen. Amazon und Google kennen die Kaufentscheidungen bzw. ausgewählten Suchergebnisse ihrer Kundinnen und Kunden; das sind die Ausgaben. Häufig sind diese Ausgaben aber gar nicht vorhanden! Wenn wir mit Maschinenlernen FußgängerInnen erkennen wollen, benötigen wir viele Bilder, auf denen FußgängerInnen sind und Bilder, auf denen keine sind, und jeweils die Information, ob das der Fall ist. Aber wo kommt diese Information her? Hier liegt oft ein strukturelles Problem vor: Wenn eine Maschine diese Information aus gegebenen Daten erstellen könnte, dann würden wir Maschinenlernen nicht mehr benötigen, denn offenbar gibt es ja bereits eine Maschine, die das Problem gelöst hat. Wenn aber ein Mensch diese Informationen liefern muss, dann wird das bei großen Datenmengen sehr aufwändig – und Menschen können auch wieder Fehler machen. Im Fall von Amazon und Google liegt der Fall übrigens etwas anders: Hier entstehen die Ausgaben in den Trainingsdaten durch Beobachtung der Interaktion von Mensch und Maschine, nicht durch Berechnung.

Drittens können Daten auch in zu geringer Zahl vorliegen, was dann dazu führt, dass man aus zu wenigen Beispielen die falschen Schlüsse zieht. Das Problem haben wir Menschen auch. Wir nennen das dann Vorurteile. Es ist wichtig, sich klarzumachen, dass die Verfügbarkeit hinreichender Datenmengen vom Kontext abhängt: Amazon und Google haben es vergleichsweise einfach, große Mengen vollständiger Daten guter Qualität bzgl. Kauf- und Suchverhalten zu erheben. Das ist nicht so einfach für Messungen in der analogen Welt, und das ist nicht so einfach für die Diagnose seltener Krankheiten.

Eine weitere Schwierigkeit ergibt sich viertens aus dem Problem, dass Trainingsdaten repräsentativ für die Zusammenhänge in der echten Welt sein sollen: Wenn man ein Erkennungssystem für FußgängerInnen nur in Situationen mit schönem Wetter anwendet, mag es akzeptabel sein, nur oder fast nur Trainingsdaten mit schönem Wetter zu verwenden. Wir würden uns aber natürlich wünschen, dass das System im Fall ausnahmsweise schlechten Wetters trotzdem funktioniert; insbesondere deswegen, weil wir vielleicht gar nicht ahnen, dass die Wetterverhältnisse einen Einfluss auf die Erkennungsgenauigkeit haben. In diesem Fall ist es aber wahrscheinlich, dass die Qualität des Erkennungssystems durchaus vom Wetter abhängt. Erinnern Sie sich, dass eine maschinengelernte Struktur Ausgaben ermittelt, indem für eine unbekannte Eingabe die Ausgaben derjenigen Trainingsdaten gemittelt werden, deren Eingabedaten der unbekannten Eingabe am ähnlichsten sind. Wenn nun fast nur Aufnahmen von schönem Wetter vorliegen, sind die ähnlichsten Trainingsdaten wahrscheinlich nicht sehr ähnlich zu einem Regenwetterbild. Dann kann es zu falschen Resultaten kommen. Ein berühmtes Beispiel für dieses Phänomen sind frühe Versionen von Gesichtserkennungssystemen, die Weiße mit sehr guter Genauigkeit erkannt haben, Schwarze aber mit schlechter Genauigkeit, weil sie vornehmlich mit Bildern von Weißen trainiert wurden. Wenn die Ergebnisse automatischer Gesichtserkennung von der Polizei automatisch als richtig angenommen werden, kann das zu Konsequenzen wie unberechtigten Festnahmen führen. Das ist gerade im letzten Jahr in Michigan passiert. Ethisch ist das auch deswegen problematisch, weil wir Menschen denken, dass eine KI zu „neutraleren“, „besseren“ oder „rationaleren“ Schlüssen kommt, weil kein Mensch am Werk ist. Aber eine KI kann nicht besser sein als die Daten, mit denen sie trainiert wurde.

Kann eine KI diskriminierend sein?

Statistische Verteilungen von Eingabedaten können also, aus mathematischen Gründen übrigens, in der Praxis des Maschinenlernens dazu führen, dass seltene Eingabedaten mit höherer Wahrscheinlichkeit zu falschen Ausgaben führen. Das ist bei Menschen ja nicht anders: Fehler machen wir eher in Ausnahmesituationen. Informatikerinnen und Informatiker arbeiten daran, dieses Problem in den Griff zu bekommen. Ich will zum Abschluss dieses Teils aber noch kurz auf einen anderen Aspekt der Verteilung von Ein- und Ausgabedaten eingehen. Da das Maschinenlernen letztlich statistische Zusammenhänge erfasst, wird es auch statistische Zusammenhänge identifizieren, die wir möglicherweise als problematisch empfinden. Wenn Angehörige einer bestimmten Nationalität und eines bestimmten Alters statistisch als besonders unfallverursachend erkannt werden; oder wenn Fortbildungsmaßnahmen für eine bestimmte Altersgruppe statistisch als ineffektiv erkannt werden; oder wenn ein bestimmtes Geschlecht statistisch zu niedrigeren Leistungen führt, dann empfinden wir das vielleicht als diskriminierend. Das spielt in den USA aus historischen und kulturellen Gründen eine viel größere Rolle als bei uns, ist bei uns aber nicht minder wichtig und ja auch im Grundgesetz für bestimmte Merkmale verboten. Man kann dann in den Trainingsdaten diese Merkmale einfach weglassen. Das löst das Problem aber nicht immer, wenn diese Primärmerkmale wiederum mit sekundären Merkmalen korrelieren und sich dann aus der Diskriminierung bzgl. der Sekundärmerkmale automatisch auch eine Diskriminierung bzgl. der Primärmerkmale ergibt.

Zwischenfazit

Fassen wir zusammen: Beim Maschinenlernen werden erstens Zusammenhänge gelernt, die wir nicht explizit kennen. Würden wir sie kennen, benötigten wir ja kein Maschinenlernen! Diese Zusammenhänge repräsentieren zweitens nicht gezwungenermaßen reale Wirkketten: Sie sind statistischer Natur, nicht ontologischer. Die Strukturen, die das Resultat des Lernvorgangs sind, beinhalten drittens keine expliziten Regeln, die für Menschen einleuchtend Konzepte zueinander in Bezug setzen, sondern funktionieren letztlich eben über statistische Analyse von Ähnlichkeiten. Viertens wissen wir aus den genannten Gründen nicht, ob die Daten geeignet sind, Zusammenhänge in der echten Welt zu repräsentieren; ob sie für alle neuen Eingabedaten funktionieren; ob sie für alle Untergruppen von Eingabedaten gleich gut funktionieren; und ob sie unerwünschtes Diskriminierungspotential bergen. Fünftens, das sollten wir bei unserer kritischen Analyse nicht vergessen, funktioniert Maschinenlernen in der Praxis oft ganz außerordentlich gut!