KI in der Onkologie: Maschinelle Erstellung von Entscheidungsbäumen

DOI: https://doi.org/10.47184/tk.2025.02.4

Entscheidungsbäume gehören zu den bewährten grafischen Stilmitteln, um in ­onkologischen Leit­linien komplexe diagnostische und therapeutische Empfehlungen ­transparent zu machen. Mit Algorithmen des maschinellen Lernens (ML) kann man ­statistisch valide Vorschläge für solche Entscheidungsbäume automatisch erstellen. Wir erläutern, was man bei der Datenaufbereitung alles beachten muss und wie der Computer zu seinen scheinbar intelligenten Schlussfolgerungen kommt.

Schlüsselwörter: maschinelles Lernen, Datenaufbereitung, Entscheidungsbäume

Entscheidungsbäume sind die wohl wichtigste Darstellungsform von medizinischem Wissen, wenn es darum geht, aus verschiedenen qualitativen und quantitativen Angaben wie etwa Tumorstadium, Mutationsstatus und Biomarkerkonzentrationen onkologische Diagnosen, Prognosen oder Therapieempfehlungen abzuleiten. Kaum eine Leitlinie verzichtet auf diese als Algorithmen bekannten Grafiken, um komplexe Entscheidungswege zu visualisieren und nachvollziehbar zu machen.

Die Entwicklung solcher Entscheidungsbäume ist in der Regel ein aufwendiger Prozess, der eine evidenzbasierte Analyse der verfügbaren Studien, eine interdisziplinäre Expertenkonsultation (z. B. Konsensuskonferenzen und Delphi-Methoden) sowie schließlich eine strukturierte Darstellung der Entscheidungswege umfasst. In diesem Beitrag wollen wir erläutern, wie man es mit ML-Techniken schafft, in Sekunden einen plausiblen Vorschlag für einen solchen Entscheidungsbaum zu erstellen. Abb. 1 stellt eine typische Grafik zur Klassifizierung von zwei Tumortypen mithilfe von Serumtumormarkern dar.

Das Bild wird gern mit einem auf dem Kopf stehenden Baum verglichen: Man sieht oben den Tumormarker ProGRP als Wurzel; die Äste sowie Zweige zeigen nach unten und enden in einer Reihe von Blättern, die die beiden gesuchten Tumortypen enthalten.

Ein Entscheidungsbaum lässt sich als Abfolge von Wenn-dann-Regeln interpretieren, also zum Beispiel: Wenn der ProGRP-Spiegel mindestens 75 pg/ml beträgt, dann handelt es sich mit einer Wahrscheinlichkeit von 0,98 (98 %) um ein kleinzelliges Lungenkarzinom (SCLC). Wenn nicht, dann sollten für die weitere Differenzierung NSE, CYFRA 21-1 und CA 72-4 gemessen werden.

Bei traditionellen „prozeduralen“ Computerprogrammen werden diese Regeln von Menschen explizit vorgegeben. Bei der prädiktiven KI sind die Algorithmen des maschinellen Lernens dagegen in der Lage, den Lösungsweg selbstständig zu finden, indem sie „aus den Daten lernen“ [2, 3].

Datenaufbereitung

Wenn wir von Daten sprechen, so meinen wir hier Tabellen in der Art von Excel-Blättern (Abb. 2).

In den Zeilen stehen typischerweise die Fälle (z. B. Personen mit unterschiedlichen Tumortypen) und in den Spalten die untersuchten Kenn­größen (z. B. demografische und klinische Angaben, histologische Befunde sowie Laborwerte). Zu Beginn des Lernprozesses liegen diese Daten oft verstreut in wenig strukturierter Form vor: Personenkennziffern und demografische Angaben findet man beispielsweise in der Datenbank der Klinikverwaltung, Tumorstadien im Entlassungsbrief und Histologien sowie Biomarkerwerte in den IT-Systemen der Pathologie beziehungsweise des Zentrallabors.

Die Zusammenführung und Standardisierung all dieser Daten in Form einer einzigen, wohlgeordneten Tabelle macht bei ML-Projekten in der Regel die meiste Arbeit und be­inhaltet viele Fehlermöglichkeiten [3]. Der eigentliche maschinelle Lernprozess ist dagegen meist rasch zu realisieren, denn dafür stehen heute zahlreiche etablierte Softwarepakete und „Pipelines“ (automatisierte Abfolgen von Verarbeitungs­schritten) zur Verfügung.

Tab. 1 fasst die wichtigsten Teilschritte der Datenaufbereitung zusammen.

Tab. 1 Wichtige Schritte der Datenaufbereitung beim maschinellen Lernen in der Labormedizin (nach [3]).

Arbeitsschritt

Ziel

Herausforderungen

Datenimport und Integration

Daten aus verschiedenen Quellen ­zusammenführen

z. B. fehlerträchtige manuelle Eingaben und mangelnde Standardisierung der Formate

Exploration

Dateneigenschaften verstehen

Abgleich mit den Studienzielen und ­Beurteilung der Datenqualität

Bereinigung

Datenqualität verbessern

Fehlende Werte, Duplikate, Ausreißer, Inkonsistenzen u. a.

Transformation und Skalierung

Daten für die Modellierung und Auswertung standardisieren

Auswahl des geeignetsten Standardisierungsverfahrens je nach Fragestellung

Dimensions­reduktion

Komplexität verringern, Strukturen ­visualisieren

Abwägung zwischen Klarheit und ­Informationsverlust

Eine ausführliche Beschreibung findet sich in Trillium ­Diagnostik 1/2024 [3]. Von den fünf aufgeführten Punkten sind zur Erstellung eines Entscheidungsbaums mit dem Softwarepaket rpart (s. u.) nur die ersten drei relevant. Die Punkte 4 und 5 werden in der nächsten Folge dieser Serie erläutert. Typische Herausforderungen beim Datenimport aus heterogenen Quellen sind unterschiedliche (häufig proprietäre) Formate und die mangelnde Standardisierung klinischer Angaben. Besonders kritisch sind manuelle Eingaben: Hier kann es zu Zahlendrehern und Kommafehlern kommen, die selbst durch eine Ausreißerprüfung nur schwer zu erkennen sind.

Unter Integration versteht man die Zusammenführung der Daten in einer einzi­gen Tabelle nach dem Tidy-Data-Konzept („tidy“ = ordentlich). Das heißt: Fälle in Zeilen, Variablen in Spalten und jede Zelle dürfen nur eine Information enthalten.

Bei der explorativen Datenanalyse (EDA) gewinnt man mit Kennzahlen und Grafiken ein tieferes Verständnis der – zunächst oft verwirrenden – Tabelleninhalte. Als Beispiel sind in Abb. 3 die Boxplots von drei Tumormarkern dargestellt.

Man erkennt, dass CYFRA 21-1 bei NSCLC und NSE bei SCLC erhöhte Konzentrationen aufweisen, während bei CA 19-9 die meis­ten Werte unterhalb der vom Hersteller angegebenen Cut-off-Werte liegen.

Bei der Datenbereinigung geht es unter anderem darum, unplausible Werte oder Duplikate zu entfernen. Aus Gründen der statistischen Unabhängigkeit muss man beispielsweise sicherstellen, dass in der Tabelle jeder Fall nur einmal vorliegt – es sei denn, man möchte zeitliche Verläufe pro Fall untersuchen.

Ein häufiges und keineswegs triviales Problem stellen fehlende Werte dar, mit denen maschinelle Lernverfahren in der Regel nicht umgehen können. Hier muss man prüfen, ob die Lücken zufällig entstanden sind, zum Beispiel durch Ausfall eines Messgeräts; dann dürfen die Lücken mit Schätzwerten wie etwa Mittelwerten oder Medianen aufgefüllt werden (Imputation). Wurde auf eine Messung jedoch unter anderem aufgrund fehlender Indikation bewusst verzichtet, dann enthält diese Lücke eine wichtige Information, die den Einsatz spezieller Imputationsmethoden erfordert.

Überwachtes Lernen

Beim ML unterscheidet man zwischen „supervised learning“ (überwachtes Lernen) und „unsupervised learning“ [1, 2]. Entscheidungsbäume fallen in die erste Kategorie, wobei die deutsche Übersetzung „überwacht“ nichts mit Computerüberwachung zu tun hat. Vielmehr wird der Lernprozess von einem „digitalen Supervisor“ überwacht, der dem Programm sagt, welche Antwort – SCLC oder NSCLC – für den jeweiligen Fall korrekt ist (Spalte B in Abb. 2).

Diese Antworten – in unserem Fall die Diagnosen – bezeichnet man im Fachjargon als Labels. Sie müssen aus einer von den Trainingsdaten unabhängigen Quelle stammen und sollten möglichst mit einer Goldstandardmethode ermittelt worden sein, hier also zum Beispiel aus der Histologie in Kombination mit menschlicher Expertise [5].

Das Ziel des maschinellen Lernens besteht nun darin, aus solchen Beispielen richtiger Antworten ein verallgemeinertes mathematisches Modell zu entwickeln [1], das es erlaubt, für neue, unbekannte Daten korrekte Vorhersagen zu treffen. Dabei darf das deutsche Wort Vorhersage allerdings nicht im Sinne einer Wettervorhersage missverstanden werden. Der Entscheidungsbaum ist kein Prophet, der eine künftige Krebserkrankung wie ein Unwetter ankündigt. Im Englischen wird zwischen „prediction“ und „forecast“ unterschieden. Vorhersage im Sinne der prädiktiven KI besagt in unserem Fall, dass ein bereits vorliegender Lungenkrebs bei einer bestimmten Biomarkerkonstellation entweder in die Klasse kleinzellig (SCLC) oder nichtkleinzellig (NSCLC) eingeordnet werden soll.

Es gibt zahlreiche Softwarepakete, die diese Form des überwachten Lernens automatisieren. Für unsere Studie haben wir uns für das R-Paket rpart („recursive partioning and regression trees“) entschieden. Die Strategie, die dieser Lernalgorithmus verfolgt, nennt man „greedy“ (engl. für gierig). Das bedeutet, dass die Entscheidungen an jedem Knoten des Baums auf Basis der aktuell besten Option getroffen werden, ohne etwaige Konsequenzen für nachfolgende Knoten zu berücksichtigen.

In Abb. 1 ist beim ersten Knoten das bes­te Kriterium der Biomarker ProGRP mit einem Cut-off-Wert von 75 pg/ml. Es ordnet 83 von insgesamt 436 Fällen (19 %) mit sehr hoher Wahrscheinlichkeit der Klasse SCLC zu. Die übrigen 353 Fälle (81 %) bleiben zunächst unklassifiziert.

Beim nächsten Schritt ist im linken Ast das beste Kriterium der Marker NSE mit einem Cut-off-Wert von 41 ng/ml. Hier emp­fiehlt rpart interessanterweise, vor der Zuordnung zu einer finalen Klasse eine weitere Auftrennung mithilfe von CYFRA 21-1 und CA 72-4 vorzunehmen. Als bestes Kriterium wird nun CYFRA 21-1 mit einem Cut-off-Wert von 1,7 ng/ml ermittelt; dieser Split erlaubt es, volle 257 von 436 Fällen (59 %) mit hoher Wahrscheinlichkeit der Klasse NSCLC zuzuordnen. Mit den verbleibenden 96 nicht klassifizierten Fällen verfährt das Programm in identischer Weise, bis sich keine weitere Aufteilung mehr lohnt – beispiels­weise, weil die so entstandenen Untergruppen nicht mehr genügende Fälle enthalten würden.

Aufteilungskriterien

Für die Berechnung des optimalen Aufteilungskriteriums gibt es verschiedene Methoden. Im einfachsten Fall könnte man die Anzahl der Fehlklassifikationen ermitteln und jeweils das Kriterium auswählen, das die wenigsten Fälle falsch zuordnet. Dieses Verfahren ist jedoch nur dann sinnvoll anwendbar, wenn genau zwei Klassen in einem ausgewogenen Verhältnis vorliegen. Universeller einzusetzen ist der p-Wert eines statistischen Tests, der prüft, welches Kriterium die Klassen mit höchstmöglicher Signifikanz trennt.  Einen solchen Ansatz verfolgt unter anderem der „conditional inference tree“, kurz ctree [2].

Die meisten ML-Algorithmen zur Erstellung von Entscheidungsbäumen basieren heute jedoch auf dem GINI-Index oder der Shannon-Entropie, benannt nach dem italienischen Soziologen Corrado Gini (1884–1965) beziehungsweise dem amerikanischen Mathe­matiker Claude Shannon (1916–2001). Gini entwickelte ein Konzept zur Messung von Ungleichverteilungen bei Einkommen und Vermögen, und Shannon bediente sich mit der Entropie eines Maßes, das den Grad der Unordnung in einem physikalischen System beschreibt.

Beide Metaphern werden beim ML im Sinne von „Unreinheit“ beziehungsweise „Nichtvorhersagbarkeit“ verwendet. Übertragen auf unseren onkologischen Entscheidungsbaum, versucht rpart, die Aufteilungskriterien so zu wählen, dass in jedem Subkollektiv (Blatt) am unteren Ende des Baums höchstmögliche Reinheit (GINI) beziehungsweise Vorhersagbarkeit (Shannon) herrscht. Der Idealzustand wäre erreicht, wenn in jedem Blatt nur eine Klasse, also entweder SCLC oder NSCLC, vertreten wäre. In diesem Falle ergäbe sich ein GINI-Index beziehungsweise eine Shannon-Entropie von null.

Dieser Zustand wird in der Praxis jedoch nicht wirklich angestrebt. Denn absolute Reinheit würde im Extremfall bedeuten, dass man die Aufteilung des Datensatzes so lange fortführen muss, bis jedes Blatt nur noch einen einzigen Fall enthält. Ein solcher Baum würde zwar keinerlei falsche Zuordnungen erzeugen, wäre aber nicht auf neue Daten anwendbar, sondern nur für den Trainingsdatensatz geeignet (Überanpassung; engl. „overfitting“).

Stattdessen wird der Entscheidungsbaum so „beschnitten“ (engl. „pruning“), dass die einzelnen Blätter noch genügend große Fallzahlen enthalten. Dadurch ist der Baum generalisierbar, kann also – unter Inkaufnahme eines akzeptablen Maßes an Fehlklassifikationen – auch auf andere Datensätze übertragen werden. Den Anteil an richtigen und falschen Zuordnungen kann man dann mit den üblichen statistischen Kennzahlen wie Sensitivität, Spezifität und Richtigkeit beschreiben.

Ein Berechnungsbeispiel

Wie die Formeln im Kasten zeigen, ist die Berechnung der optimalen Cut-off-Werte im Entscheidungsbaum keine Magie, sondern simple Mathematik unter Verwendung der Grundrechenarten und der Potenzrechnung. Zur Illustration wollen wir hier den Wurzelknoten der Abb. 1 analysieren, der eine Aufteilung nach dem Kriterium ­proGRP  75 ng/l durchführt:

Klasse

≥ 75

< 75

SCLC

83

45

128

NSCLC

2

306

308

85

351

436

Der Originaldaten­satz enthält 128 SCLC-Fälle (29,4 %) und 308 NSCLC-Fälle (70,6 %). Daraus errechnet sich nach der ersten Formel im grauen Kasten ein GINI-Index von G = 1 – (0,2942 + 0,7062) = 0,415. Nach der Auftrennung befinden sich im rechten Ast des Entscheidungsbaums (proGRP ≥ 75 ng/l) noch 19,5 % der Fälle; der Rest entspricht also 80,5 %. Der GINI-Index nach diesem Split berechnet sich nun etwas aufwendiger aus der nach Fallzahlen gewichteten Summe der GINI-Indizes für die beiden senkrechten Spalten. Dazu berechnen wir den Index G1 beziehungsweise G2 also zuerst für jede Spalte separat:

G1 = 1 – (0,9762 + 0,0242) = 0,047

G2 = 1 – (0,1282 + 0,8722) = 0,223

Anschließend werden G1 und G2 mit den jeweiligen relativen Häufigkeiten multi­pliziert und aufaddiert:

0,195 . G1 + 0,805 . G2 =  0,189

Der GINI-Index hat sich also durch die Aufteilung im Wurzelknoten mehr als halbiert; das besagt, dass die „Unreinheit“ des Datensatzes stark abgenommen hat, vor allem, weil der SCLC-Anteil im rechten Ast von knapp 30 auf 98 % gestiegen ist.

Die entsprechende Shannon-Entropie  beträgt im Originaldatensatz 0,873 und sinkt durch die Aufteilung im Wurzelknoten auf 0,476. Anstelle von „Reinheit“ spricht man hier von „Vorhersagbarkeit“: Die Diagnose SCLC ist durch den Split wesentlich besser vorhersagbar geworden.

Wie aber ermittelt rpart den optimalen Cut-off-Wert von 75 ng/l für proGRP? Auch dahinter steckt keine Magie, sondern im einfachsten Fall schlichtes Ausprobieren verschiedener Schwellenwerte, beispielsweise der proGRP-Konzentrationen zwischen 1 und 400. Abb. 4 zeigt, dass sowohl der GINI-Index als auch die Shannon-Entropie von einem relativ hohen Ausgangswert beginnend allmählich sinken und bei 75 ng/l ein Minimum erreichen, um danach langsam wieder anzusteigen.

Dieser tiefste Punkt wird von der KI dann als optimaler Cut-off-Wert ausgewählt.

Weitere Anwendungsfelder

Der hier vorgestellte Entscheidungsbaum löst eine typische Klassifikationsaufgabe, da er eine Klasse auf der Basis von Prädiktoren vorhersagt – in unserem Beispiel eine Dia­gnose auf der Basis von Tumormarkerspiegeln.

Ebenso kann man mit ML auch beliebige andere Prädiktoren mit Klassen verknüpfen. So gelang es einer amerikanischen Arbeitsgruppe, anhand von Daten aus elektronischen Patientenakten für verschiedene Tumor­typen vorherzusagen, ob die Überlebenszeit nach Beginn einer Chemotherapie kürzer oder länger als 30 Tage sein würde [6]. Die Motivation für diese Studie bestand darin, im Fall einer schlechten Prognose und damit aussichtslosen Therapie die physische und finanzielle Belastung zu vermeiden, die mit eingreifenden Maßnahmen einhergeht. Die in dieser Studie eingesetzte „graded boosted tree“-Technik erzeugte im Gegensatz zu unserem Beispiel nicht nur einen einzigen Entscheidungsbaum, sondern eine ganze Reihe von Bäumen, die so auf­einander aufbauen, dass sie jeweils aus den Fehlern des Vorgängers lernen.

Eine weitere ML-Technik, die zur Lösung einer Aufgabe mehrere Entscheidungsbäume kombiniert, trägt den Namen „random forest“. Dabei werden aus dem Datensatz per Zufall Spalten (Prädiktoren) oder Zeilen (Fälle) ausgewählt, um zahlreiche Bäume zu erzeugen. Der Name „random forest“ drückt bildhaft aus, was dieser Algorithmus produziert, nämlich einen ganzen Wald aus vielen hundert Entscheidungsbäumen, die auf zufällig ausgewählten Eigenschaften des Datensatzes basieren. Das finale Ergebnis der Klassifikation wird in diesem Fall nicht aus einem einzigen Baum abgeleitet, sondern per Mehrheitsvotum aus dem gesamten „Wald“ ermittelt. Der Vorteil dieser Technik besteht darin, dass sie robuster gegen Schwankungen in den Daten und weniger anfällig für Overfitting ist. Ihr Nachteil liegt darin, dass das Ergebnis nicht mehr so leicht nachvollzogen werden kann wie dasjenige des Entscheidungsbaums in Abb. 1.

Klassifikationsaufgaben wie die Vorhersage von Tumortypen, Tumorstadien oder Prognosen sind in der Onkologie die bei Weitem wichtigste Fragestellung, die mit maschinell erstellten Entscheidungsbäumen bearbeitet werden kann. Der Vollständigkeit halber sei erwähnt, dass anstelle von Klassen auch numerische Ergebnisse wie zum Beispiel Tumorgrößen vorhergesagt werden können. Dann spricht man von „regression trees“. Und schließlich gibt es Entscheidungsbäume zur Vorhersage von Überlebenszeiten in Form von Kaplan-Meier-Kurven, die man als „survival trees“ bezeichnet.

Autoren
Prof. Dr. Frank Klawonn, Braunschweig
Helmholtz-Zentrum Braunschweig
Prof. Dr. med. Georg Hoffmann, Grafrath
Trillium GmbH Medizinischer Fachverlag
Dr. med. univ. Inga Trulson
Prof. Dr. med. Stefan Holdenrieder
Deutsches Herzzentrum München
Im Kontext
Aus der Rubrik
PDF Download
Die ganze Ausgabe als PDF herunterladen