Unsere Serie über maschinelles Lernen in der Onkologie1 startete im Herbst 2024 mit einem Rundumschlag: Von der Einführung des Computers Z3 durch Konrad Zuse bis zum Deep-Learning-Ansatz von ChatGPT haben wir die wesentlichen Zutaten erläutert, aus denen sich die Rezepte der generativen und prädiktiven künstlichen Intelligenz (KI) zusammensetzen. Der Weg führte uns unter anderem von Expertensystemen, deren Regeln noch von Menschen formuliert werden mussten, bis zu mathematischen Modellen des überwachten Lernens, die es dem Computer ermöglichen, solche Regeln selbstständig aus großen Datensätzen abzuleiten und beispielsweise in Form von Entscheidungsbäumen grafisch aufzubereiten.
Um die Theorie hinter diesen Algorithmen besser greifbar zu machen, haben wir alle Prozessschritte anhand publizierter Echtdaten mit zwei Lungenkrebsformen (SCLC und NSCLC) und mehreren tausend Laborwerten praktisch demonstriert: Datenzusammenführung aus verschiedenen Quellen, Behandlung fehlender Werte, Auswahl der aussagekräftigsten Tumormarker, Festlegung der optimalen Cut-off-Werte mit Gini-Index und Shannon-Entropie – so entstand in erstaunlicher Geschwindigkeit ein Entscheidungsbaum, der es an Aussagekraft mit der Leistungskraft von Fachleuten aus Statistik und Medizin aufnehmen konnte.
Im nächsten Kapitel wird es nun heiß und bunt, wenn wir die KI sogenannte Heatmaps als bewährte Darstellungsform des unüberwachten Lernens konstruieren lassen. Wir bieten dem Computer wieder unsere Echtdatentabelle an, lassen diesmal aber die Spalte mit den Diagnosen weg. Auf diese Weise wollen wir prüfen, ob er allein aufgrund der Muster in den Werten vorhersagen kann, welche Patientengruppen sich in den Daten verbergen. Auf das Ergebnis waren wir selbst neugierig – und wurden nicht enttäuscht.
1Alle Beträge finden Sie online unter www.trillium.de/services/statistik-in-der-medizin.