INHALT

Teil II
„Lernen“ aus Daten

„Verstehen“ im Maschinenlernen

Auch wir Menschen lernen ja häufig dadurch, dass wir Zusammenhänge über Beispiele erfassen. Zusammenhänge zu erfassen ist aber nicht dasselbe wie Zusammenhänge zu verstehen und Zusammenhänge erklären zu können! Die Erfahrung haben wir alle schon gemacht: Wenn uns eine Nichtmuttersprachlerin oder ein Nichtmuttersprachler fragt, ob die Grammatik eines bestimmten Satzes korrekt ist, können wir sofort ja oder nein sagen: Wir wissen es, weil sich der Satz „richtig anhört“, weil wir vorher hinreichend viele Beispiele gehört haben, die so ähnlich sind oder eben nicht. Wenn wir dann aber gefragt werden, warum der Satz richtig bzw. falsch ist, können wir das nicht beantworten. Denn meistens kennen wir die Regeln der Grammatik unserer Muttersprache nicht.

Eng damit zusammen hängt die folgende Überlegung, die ich für wichtig halte. Es ist nämlich noch nicht einmal gezwungenermaßen so, dass die maschinengelernte Struktur dieselben Zusammenhänge repräsentiert, die wir als Menschen als relevant erachten würden. Wir Menschen erkennen das Bild einer Fußgängerin oder eines Fußgängers vielleicht daran, dass es sich um ein längliches Wesen mit Merkmalen wie Kopf, Rumpf, Armen, Beinen usw. handelt, das sich auf eine bestimmte Art und Weise bewegt und das bestimmte Dinge erwartbar tut oder nicht tut. In unserem Kopf passiert bei der Zuordnung des Mentalen zu den Objekten der realen Welt etwas, das die Philosophie Intentionalität nennen. Die maschinengelernte Struktur, die wir im ersten Teil eingeführt haben, kennt keine solche Intentionalität. Es ist sogar davon auszugehen, dass sie etwas völlig anderes repräsentiert! Das sieht man in der Praxis daran, dass es im Normalfall so sein wird, dass man durch Verändern nur eines einzigen Bildpunkts im Bild einer Fußgängerin oder eines Fußgängers die Maschine austricksen kann: Eine korrekte Zuordnung für das ursprüngliche Bild führt zu einer falschen Zuordnung für das minimal modifizierte Bild.

Die Naturwissenschaften schließen von Phänomenen bzw. Daten auf Wirkzusammenhänge. Dazu hat die Menschheit im Laufe der Zeit unglaublich mächtige Werkzeuge entwickelt wie etwa das Experiment, die Modellbildung, die Hypothese und deren Falsifikation. Im Maschinenlernen findet i.A. keine explizite Modellbildung dieser Art statt, gerade weil sich das ja häufig als zu kompliziert darstellt. Allein aus Daten werden – vermeintliche – Zusammenhänge abgeleitet. Die KI erkennt aber keine Kausalitäten, sondern statistische Muster in den Daten. Das allein, ohne Modellbildung, würden wir in vielen Situationen als unwissenschaftlich empfinden, weil dieses Vorgehen zu aus heutiger Sicht völlig irren Schlussfolgerungen führen kann. Ich denke etwa an die Idee von Paracelsus, dass man Spermien nur vierzig Tage lang in warmem Pferdemist aufbewahren müsse, um kleine Menschlein zu erzeugen. Oder mir fällt die Idee der Homöopathie von Samuel Hahnemann ein, dass man mit nicht nachweisbaren Mengen von Substanzen Wirkungen erzielen könne, weil bestimmte Gifte ähnliche Symptome hervorrufen wie bestimmte Krankheiten. Die Gefahr solcher bemerkenswerten Schlussfolgerungen besteht auch beim Maschinenlernen. Allerdings, und das müssen wir aus pragmatischer Perspektive unbedingt festhalten, ist das Maschinenlernen in der Praxis oft einfach unglaublich erfolgreich, und insbesondere erfolgreicher als Ansätze mit expliziter Modellbildung zur Repräsentation der Wirkzusammenhänge. Hippokrates hat das so formuliert: Wer heilt, hat recht.

Wann ist Maschinenlernen sinnvoll?

Das sollten wir sicherlich immer im Kopf behalten. Nach dieser prinzipiellen wissenschaftstheoretischen Erwägung müssen wir aber auch noch über die Praxis der Verwendung von Daten sprechen. Wir haben gesehen, dass Maschinenlernen sich immer dann anbietet, wenn man die Zusammenhänge, die einer zu berechnenden Funktion zugrunde liegen, nicht genau kennt oder nicht kennen kann. Vorhersagen dazu, was Kundinnen und Kunden demnächst kaufen werden, sind schwierig als explizite Regel zu beschreiben. Vorhersagen dazu, welche Webseite für eine Suchanfrage besonders relevant ist, sind ebenfalls schwierig explizit zu formulieren. Und das gilt auch für die Vorhersage, wann ein mechanisches Teil wahrscheinlich defekt sein wird; für die Wettervorhersage; für die Diagnose von Krankheiten usw. Es ist wichtig, dass wir uns erinnern, dass solche Vorhersagen genau Beispiele für die Funktionen sind, die wir im letzten Teil eingeführt haben.

Die Grenzen von Maschinenlernen

Voraussetzung für das Maschinenlernen ist, dass die Trainingsdaten in großer Anzahl vorliegen und dass für jedes Trainingsdatum nicht nur die jeweilige Eingabe, sondern auch die „richtige“ Ausgabe vorliegt. Manchmal ist man in der glücklichen Situation, dass das der Fall ist. Amazon zum Beispiel weiß ja, was Sie gekauft haben und was Menschen gekauft haben, die so ähnlich sind wie Sie. Google weiß ja, auf welche Links von bestimmten Personen für bestimmte Anfragen geklickt wurde und weiß auch sehr genau, welche Personen einander ähnlich sind und deswegen möglicherweise dieselben Webseiten interessant finden werden.

In anderen Situationen ist das nicht so klar: Bei medizinischen Diagnosen etwa weiß man ja gar nicht immer, was alles die relevanten Faktoren sind, die zu einer Diagnose durch eine Ärztin oder einen Arzt geführt haben – und die Diagnose kann auch falsch sein. Auch die zugrundeliegenden Daten selbst können falsch sein. Bei der Wettervorhersage ist ebenfalls nicht ganz klar, was alles die das Wetter bestimmenden Faktoren sind, und wie präzise und vollständig die gemessen wurden, ist ebenfalls nicht von vornherein klar. Und wenn Vorhersagen getroffen werden, ob Ihr Scheibenwischermotor demnächst ausfallen wird, sind die zugrundeliegenden Daten häufig ebenfalls nicht so sauber, nicht so korrekt und vollständig, wie das vielleicht für Suchanfragen und als relevant empfundene Webseiten der Fall ist.

Wir müssen hier zwei Aspekte genauer ansehen. Der eine Aspekt ist, welche Daten auf welcher Granularität für eine Vorhersage herangezogen werden. Was sind die Faktoren, die die Kreditwürdigkeit einer Kundin oder eines Kunden determinieren? Was sind die Faktoren, die schulischen Erfolg vorherzusagen helfen? Was sind die Faktoren, die die richtige Diagnose ermöglichen? Das ist kein technisches, sondern ein methodisches Problem. Bei einer gegebenen Menge solcher Daten kann das Maschinenlernen sogar helfen, irrelevante Daten zu identifizieren – aber es kann nicht feststellen, ob relevante Daten fehlen! Wenn man sich jedenfalls einmal entschieden hat, was die vermeintlich relevanten Daten sind, kommt der zweite Aspekt ins Spiel, die Qualität der Daten. Wenn Daten gemessen und gespeichert werden, passieren aus ganz unterschiedlichen Gründen Fehler, und die Daten sind dann unvollständig oder schlicht falsch. Das passiert sowohl in der analogen als auch in der digitalen Welt.

Trainingsdaten können also unvollständig und falsch sein. Das sehen wir uns im nächsten Teil an.