Die Suche nach dem perfekten Algorithmus

Auswertung molekularbiologischer Massendaten

Zeichnen Muster aus Tausenden von Biomarkern ein detaillierteres Bild komplexer Erkrankungen, als es die Einzelwerte der traditionellen medizinischen Diagnostik tun? Analysentechnisch ist heute vieles machbar, aber aus medizinischer Sicht sind die Ergebnisse bisher eher mager. Feature Selection heißt das Gebot der Stunde – also Fokussierung auf wenige aussagekräftige Marker.

„Zwar weiß ich viel, doch möcht‘ ich alles wissen“. Diesen Ausspruch von Dr. Fausts Famulus könnte man auch gut den Molekularbiologen des 21. Jahrhunderts in den Mund legen. Zwar häuften sie seit Entdeckung der Nukleinsäuren (1869) und Aufklärung der DNA-Struktur (1953) ungeheure Mengen an Details über den „Bauplan des Lebens“ und seine biochemische Umsetzung an, doch was fehlte, war der Gesamtüberblick über das große Ganze. Man konnte nicht einmal sagen, wie viele Gene der Mensch nun wirklich besitzt; in den späten1990er-Jahren schätzte man sie noch auf 100.000.

Ganze Genome im Wochentakt
Erst durch das vor rund zehn Jahren abgeschlossene Humangenom-Projekt erhielt man Überblick über alle (gut 20.000) Gene des Menschen, und inzwischen erlauben Next Generation Sequencing und Bioinformatik die komplette Sequenzierung und Auswertung individueller Genome im Wochentakt. Dazu kommen weitere Hochdurchsatzverfahren, um auch die Gesamtheit aller Proteine und Metabolite auf einen Schlag zu erfassen.
Schon die seit 40 Jahren bekannte 2D-Gelelektrophorese konnte in Körperflüssigkeiten einige hundert Biomarker auftrennen (Kasten: oberes Bild). Moderne Verfahren wie DNA- und Protein-Mikroarrays oder Massenspektrometrie bringen es auf Tausende bis Millionen. Manche dieser Techniken wie etwa MALDI-TOF oder Raman-Spektroskopie (unteres Bild) kann man sogar zur Erhebung großer Datenmengen in mikroskopischen Schnitten verwenden, um die Biomarker bestimmten morphologischen Strukturen zuzuordnen.

Multi-Omics
Der jüngste Hype ist die Integration von Massendaten aus verschiedenen Omics-Welten in einer einzigen, gewaltigen Datenbank (S. 63). Ähnlich wie bei den Geheimdiensten scheint die Sammelwut der Biowissenschaftler keine Grenzen zu kennen: Was machbar ist, wird auch gemacht. Und so sollte man meinen, dass wir dem Traum von Fausts Famulus „alles zu wissen“ ganz nahe sind.
Die Wahrheit ist aber: Alle bisherigen Publikationen, die versuchten, aus Omics- oder gar Multi-Omics-Daten Aussagen über Gesundheitszustand und Krankheitsrisiken einzelner Personen zu machen, kamen zu eher enttäuschenden Ergebnissen. Natürlich fand man immer, wenn man Abermillionen von Messwerten erhob, auch Abertausende von Normabweichungen; doch deren medizinische Deutung blieb weitgehend offen.
Meist war man froh, wenn am Ende ein bekanntes „Krebsgen“ (Protoonkogen) mutiert oder ein bekanntes „Alzheimerprotein“ wie ApoE4 erhöht war. Betrachtet man diese Ergebnisse ganz nüchtern, so möchte man dem Dr. Faust beipflichten, der seinem Famulus vorwirft, dass er „mit gier‘ger Hand nach Schätzen gräbt und froh ist, wenn er Regenwürmer findet.“
Doch damit soll nicht gesagt werden, dass das Geld für die pathobiochemische Forschung mit Massendaten zum Fenster hinausgeworfen sei. Für die Menschheit ist diese Erweiterung des Horizonts von unschätzbarem Wert. Nur so konnten beispielsweise die komplizierten Signalwege des Krebses aufgeklärt und neue Inhibitoren für die Therapie entwickelt werden.
Es macht aber zum gegenwärtigen Zeitpunkt keinen Sinn, für den einzelnen Patienten Millionen von Messwerten zu erheben, um daraus eine Diagnose oder Risikovorhersage abzuleiten. Wir haben statistische Modellrechnungen durchgeführt (www.dgkl.de, KCM 2013;44:158-60), die belegen, dass die Kombination von drei bis zehn voneinander unabhängigen (!) Biomarkern gegenüber dem Einzelwert durchaus Informationsgewinn bringen kann. Alles, was darüber hinausgeht, verbessert – zumindest bei den in den meisten Studien üblichen kleinen Patientenzahlen – die diagnostische Trennschärfe nicht merklich, sondern verstärkt allenfalls das Rauschen (im Sinne einer Verschlechterung).

Die richtige Auswahl
In der Forderung nach statistischer Unabhängigkeit liegt womöglich der größte Nutzen des Multi-Omics-Ansatzes. Denn es ist gar nicht so einfach, zehn Biomarker zu finden, die dieselbe Krankheit anzeigen und trotzdem nicht untereinander korrelieren. Kombiniert man dagegen verschiedene Omics-Welten, so steigt diese Chance erheblich: Wenn zwei Laborwerte 1:1 korreliert sind (beispielsweise der Blutzucker einmal ausgedrückt in mg/dL und einmal in mmol/L), so kann deren Kombination keinen Zusatznutzen bringen; gehören sie jedoch zu zwei völlig unterschiedlichen Pathomechanismen und zeigen trotzdem dieselbe Krankheit an, so macht ihre gemeinsame Abweichung von der Norm das Vorliegen genau dieser einen gesuchten Krankheit wahrscheinlicher.
Damit ist der weitere Weg für die medizinische Diagnostik klar vorgezeichnet. Die Erhebung möglichst vieler Daten bei möglichst vielen Patienten- und Kontrollgruppen mit den neuen Omics-Technologien ist wissenschaftlich unbedingt sinnvoll, um das Blickfeld zu erweitern, und unser bruchstückhaftes Wissen über Pathomechanismen zu komplettieren. Die Herausforderung an die Bioinformatiker lautet, leistungsfähige Verfahren bereitzustellen, die die aussagekräftigsten Marker aus der Flut unbedeutender Substanzen herausfischen.
Feature Selection heißt das Gebot der Stunde. Dafür gibt es bereits eine kaum überschaubare Zahl bewährter Algorithmen: Einige setzen medizinisches Wissen voraus, andere sind rein statistischer Natur, und wieder andere bedienen sich sogenannter Maschinenlernverfahren. Unsere Arbeitsgruppe arbeitet derzeit gemeinsam mit Kollegen aus beiden Welten – der medizinischen Diagnostik und der Bioinformatik – zusammen, um das Bewährte so zu verknüpfen, dass wir dem für die Medizin „perfekten Algorithmus“ so nahe wie möglich kommen.

zum Vergrößern bitte auf die Abb. klicken

Prof. Dr. Frank Klawonn
Helmholtz-Zentrum für Infektionsforschung
Prof. Dr. med. Georg Hoffmann, Herausgeber