Die Onkologie hat sich in den vergangenen Jahrzehnten von einer erfahrungsbasierten zu einer datengetriebenen Wissenschaft entwickelt. Täglich fallen in Forschung und Routine gewaltige Datenmengen an: sei es aus der Bildgebung, aus Genom- und Proteomanalysen oder – wie in unserem Fall – aus der routinemäßigen Bestimmung von Tumormarkern im Blut.
Doch wie lässt sich diese Datenflut beherrschen? Für das menschliche Gehirn ist der Zug längst abgefahren. Selbst in relativ einfachen Datensätzen wie dem in unserer Beitragsserie verwendeten Tumormarkerpanel [1] kann man mit freiem Auge ohne die Angabe von Diagnosen oder anderen klinischen Informationen kaum aussagekräftige Muster erkennen. Und auch klassische statistische Tests wie etwa der t-Test greifen aufgrund der Komplexität der Daten zu kurz.
Definition
Genau hier setzt das unüberwachte maschinelle Lernen an. Der Ausdruck „unüberwacht“ besagt: Es gibt nur die in Tabellenform vorgelegten Messwerte, aber keine vordefinierten Labels wie etwa gutartig versus bösartig oder kleinzellig versus nichtkleinzellig, denen die einzelnen Messwerte zugeordnet werden könnten.
Stattdessen versucht der Algorithmus allein aus der Analyse der Messwerte ohne „Überwachung“ oder besser gesagt ohne Anleitung zu erkennen, welche Strukturen und Zusammenhänge in den Daten verborgen sein könnten und welche medizinisch relevanten Aussagen man daraus möglicherweise ableiten kann. Der Weg dorthin führt über die Erkennung von Ähnlichkeiten in den Spalten und Zeilen des Datensatzes zur Bildung von Biomarker- und Patientengruppen (Clustern), die dann beispielsweise für oder gegen Malignität oder für eine bestimmte Histologie sprechen.
Wie aber definiert man Ähnlichkeit? Die Grafik in Abb. 1 gibt eine intuitive visuelle Erklärung der nebenstehenden Tabelle.