KI in den Lebenswissenschaften
Warum KI-Modelle in der Praxis oft versagen
Wieso haben Sie den Bedarf für den Leitfaden gesehen, den sie gemeinsam mit Forschenden der FAU-Erlangen, des Helmholtz Instituts für Pharmazeutische Forschung Saarland und der Universität des Saarlandes veröffentlicht haben?
Dominik Grimm: Aktuell gibt es sehr viel Aktivität in dem Bereich, und das ist gut, denn mit rein menschlichen Analysefähigkeiten können wir viele Fragen nicht mehr beantworten. Gleichzeitig stellen wir jedoch fest, dass es eine Diskrepanz zwischen den in Studien und den im realen Betrieb erzielten Ergebnissen gibt. Ergebnisse sind oft nicht reproduzierbar. Dies stellt ein großes Risiko dar, zum Beispiel, wenn diese Modelle in der klinischen Diagnostik eingesetzt werden sollen.
Markus List: In zahlreichen Veröffentlichungen werden Modelle vorgestellt, für die eine sehr hohe Vorhersagegenauigkeit angegeben wird. Dies vermittelt eine gewisse Scheinsicherheit, da das Modell erst mal so aussieht, als könnte es die geforderte Aufgabenstellung zuverlässig lösen. Häufig kann man dabei aber gar nicht nachvollziehen, wie das Modell zu seinen Vorhersagen kommt. Sowohl Probleme beim maschinellen Lernen selbst als auch versteckte Abhängigkeiten der Daten können zu unrealistisch hoher Genauigkeit führen. Letzteres kann man ohne Expertise in beiden Bereichen, also im maschinellem Lernen und in den Lebenswissenschaften, gar nicht erkennen. Deshalb plädieren wir dafür, dass die verschiedenen Disziplinen stärker miteinander arbeiten und ihre Kompetenzen zusammenführen. So können sie dann Probleme bemerken, die auf versteckte Abhängigkeiten zurückzuführen sind.
Was meinen Sie mit versteckten Abhängigkeiten?
List: Oft werden Daten einer einzelnen Studie benutzt, um Modelle zu entwickeln. Dabei wird viel zu selten getestet, ob Modelle in der Praxis auch mit Daten funktionieren, die an einem anderen Ort oder mit anderen Messgeräten erfasst wurden. Nehmen wir ein Beispiel: Forschende erstellen einen Datensatz, der das Mikrobiom von 500 Münchnerinnen und Münchnern beschreibt. Diese Daten teilen wir und nutzen 400 Proben als Trainingsdaten für das Modell. 100 Proben halten wir zunächst zurück, um anschließend zu messen, wie gut das Modell sich auf ungesehene Daten anwenden lässt – das sind unsere Testdaten. Das Modell hat dann anhand der Trainingsdaten gelernt Muster zu erkennen, die auf molekularer Ebene bei Patienten und Patientinnen vorhanden sind, die in München leben. Bei den 100 zurückgehaltenen Proben – den Testdaten – funktioniert es sehr gut. Wendet man es nun aber auf Menschen in Hamburg an, stellen sich die Ergebnisse plötzlich ganz anders dar. Eine Ursache hierfür können versteckte Abhängigkeiten sein, etwa dass in München lebende Menschen ein anderes Mikrobiom haben als die Bevölkerung Hamburgs.
Ein Problem tritt auch auf, wenn das Modell mit Informationen trainiert wird, die später nicht verfügbar sind. Möchte man zum Beispiel, dass das Modell vorhersagt, ob jemand Bluthochdruck entwickeln wird, nimmt man als Trainingsdaten klinische Daten von Menschen mit Bluthochdruck. Das Modell sucht dann nach Indikatoren für Bluthochdruck und findet, dass die Patientinnen und Patienten Blutdrucksenker einnehmen. Nutzt man es nun aber für eine Person mit noch nicht diagnostiziertem Bluthochdruck, wird es dieses Merkmal in den klinischen Daten nicht finden, da die Person eben noch keine Medikamente einnimmt.
Es gehen also Teile der Trainingsdaten in die Testdaten über, sollten dort aber eigentlich gar nicht sein?
Grimm: Ja, richtig. Wir sprechen von data leakage, was man in diesem Kontext vielleicht sinngemäß mit „unerwünschter Datentransfer“ übersetzen könnte. Es bestehen dann versteckte Zusammenhänge zwischen Messwerten, die im eigentlichen Anwendungsfall nicht von Bedeutung sind oder sogar in die Irre führen. Die von uns formulierten Leitlinien zielen darauf ab, ein Bewusstsein für dieses Problem zu schaffen und vor allem die Daten und Anwendungsfälle besser zu verstehen. So kann man versteckte Abhängigkeiten frühzeitig erkennen und data leakage bei der Entwicklung und dem Training neuer Modelle vermeiden.
List: Letzten Endes geht es darum, sich gut zu überlegen, für welchen Anwendungsfall man die Modelle entwickelt. Beim Trainieren muss man dann darauf achten, die passenden Daten für den konkreten Anwendungsfall zu haben. Häufig stehen aber nicht beliebig viele unabhängige Daten zur Verfügung, mit denen man testen kann. Damit das Trainieren robuster Modelle trotzdem gelingt, müssen die Modelle so gestaltet sein, dass sie weder unzulässige Abkürzungen nehmen noch Verzerrungen mit eingebaut sind.
Können Sie kurz erklären, was Sie damit meinen?
List: Oft wird auf Daten trainiert, die bestimmte Aspekte einseitig darstellen. Beim vorherigen Beispiel des Mikrobioms war dies die geografische Komponente, die nicht ausreichend berücksichtig wurde. In der Praxis begegnet uns häufig als Problem, dass gut erforschte Krankheiten gegenüber solchen, für die wenige gesicherte Erkenntnisse vorliegen, in Datenbanken überrepräsentiert sind. Solche Verzerrungen führen dann zu mitunter falschen Vorhersagen der Modelle.
Und was passiert, wenn man diese Probleme nicht behebt?
Grimm: In der Forschung über Jahrzehnte gesammelte Daten werden in Datenbanken gespeichert und sind dadurch für folgende Forschungsprojekte nutzbar. Schleichen sich Fehler ein, setzen sich diese in weiteren Studien fort. In letzter Konsequenz könnte sich das auch auf die ärztliche Behandlung niederschlagen und im schlimmsten Fall sogar die Sicherheit von Patientinnen und Patienten gefährden.
List: Dieses Problem potenziert sich, je mehr Daten wir erheben und je komplexer die Verfahren werden. Bei einfachen Modellen ist noch nachvollziehbar, wie ein Ergebnis zustande kommt. Bei hochkomplexen neuronalen Netzwerken geht das irgendwann nicht mehr. Wir müssen die Black Box aufbrechen, das heißt, uns kritisch mit möglichen Verzerrungen auseinandersetzen und Modelle auf Praxistauglichkeit prüfen. Viele Forschende beschäftigen sich zudem mit der Entwicklung neuer Verfahren, die es uns erlauben, in die Black Box zu schauen und Entscheidungswege nachzuvollziehen.
Grimm: Forschende müssen die Komplexität der Daten und Abhängigkeiten verstehen und wissen, womit sie die Algorithmen füttern. Ebenso wichtig ist es, dass sie sich im Klaren sind, welche Fragen die Modelle beantworten sollen. Klug eingesetzt helfen uns die Modelle, Suchräume zu verkleinern und Hinweise auf Lösungen zu finden. Damit das gelingt, ist es jetzt wichtig, die Arbeit mit den Modellen in die richtige Richtung zu lenken.
Bernett, J., Blumenthal, D. B. et al.: Guiding questions to avoid data leakage in biological machine learning applications. Nat Methods 21 (2024). doi.org/10.1038/s41592-024-02362-y
- Die Professur für Data Science in Systems Biology gehört zur TUM School of Life Sciences, die Professur für Bioinformatik gehört zum TUM Campus Straubing.
- Prof. Dr. Markus List ist Kernmitglied im Munich Data Science Institute (MDSI) der TUM.
- Forschung zu Künstlicher Intelligenz an der TUM
Technische Universität München
Corporate Communications Center
- Anja Lapac
- presse @tum.de
- Teamwebsite
Kontakte zum Artikel:
Prof. Dr. Markus List
Technische Universität München
Professur für Data Science in Systems Biology
Tel.: +49 8161-71-2761
markus.list @tum.de
Prof. Dr. Dominik Grimm
Hochschule Weihenstephan-Triesdorf & Technische Universität München
Professur für Bioinformatik
Tel.: +49 9421-187-230
dominik.grimm @hswt.de