Auf dem Sprung in die Routine?

Einsatz von Künstlicher Intelligenz in der digitalen Pathologie

Die digitale Pathologie zählt zu den Vorreitern der angewandten Künstlichen Intelligenz. Insbesondere mehrschichtige Neuronale Netze befinden sich als Diagnoseassistenzsysteme auf dem Sprung in die Routine. Eine noch zu überwindende Hürde ist der Black-Box-Charakter der Algorithmen; sie lässt eine Nachvollziehbarkeit der Vorhersagen nicht ohne weiteres zu und stößt bei Medizinern deshalb auf Skepsis. Ergebnisse des derzeit sehr aktiven Forschungsfeldes „erklärbare KI“ sollen auch der KI-Forschung in der Histopathologie zugutekommen.
Schlüsselwörter: Digitale Pathologie, Künstliche Intelligenz, Deep Learning, xAI

Die Künstliche Intelligenz (KI, englisch AI) ist ein Teilgebiet der Informatik, das intelligentes Verhalten im Computer nachzubilden versucht. Grundsätzlich unterscheidet man zwei Ansätze: Wissensbasierte Systeme, bei denen das Wissen durch Experten explizit – zum Beispiel in Form von Wenn-Dann-Regeln – eingegeben wird („Expertensysteme“) und selbstlernende Systeme, die anhand von Beispieldatensätzen trainiert werden („maschinelles Lernen“). Während Regelsysteme heute in nahezu jedem Labor- oder Krankenhausinformationssystems standardmäßig verfügbar sind, befinden sich selbstlernende Systeme derzeit noch auf dem Sprung in die klinische Anwendung.

Der Einsatz von Künstlicher Intelligenz in der digitalen Pathologie wird nach der Einführung der Immunhistochemie in den 1980er-Jahren und der molekularen Pathologie in den Nullerjahren als die dritte große Revolution der Pathologie bezeichnet [1]. Forscher haben das Potenzial dieser Technologie für die Automatisierung diagnostischer Aufgabenstellungen bereits aufgezeigt; neueste Ergebnisse werden regelmäßig auf internationalen Konferenzen wie etwa der European Conference for Digital Pathology (ECDP) oder dem International Symposium on Biomedical Imaging (IEEE ISBI) vorgestellt. Dort finden auch Wettbewerbe (Challenges) statt, bei denen die Teilnehmer aufgefordert sind, von Experten bewertete („annotierte“) Datensätze mit KI-Verfahren zu analysieren. Das prominenteste Beispiel ist die CAMELYON Challenge für die Brustkrebsdiagnostik, bei der in HE-gefärbten Lymphknotenschnitten Metastasen gesucht und einem vorgegebenen TNM-Grading zugeordnet werden müssen.

Angesichts der immensen Forschungsaktivitäten auf diesem Gebiet ist es wohl nur eine Frage der Zeit, wann selbstlernende Diagnoseassistenzsysteme ebenso selbstverständlich in handelsüblicher Software integriert sind wie klassische Regelsysteme.

Drei Ziele

Im Kontext der digitalen Pathologie dominieren aktuell unter den diversen KI-Techniken mehrschichtige neuronale Netze, die darauf trainiert werden, bestimmte Zell- und Gewebestrukturen

-zu detektieren,
-zu klassifizieren oder
-zu segmentieren.

Oft ist für die Lösung einer Aufgabe – etwa die Erkennung maligner Veränderungen – eine Kombination aller drei Ansätze erforderlich.

Typische Detektionsaufgaben sind beispielsweise das Auffinden mitotischer Zellen in einer HE-Färbung oder das Zählen von Ki-67 positiven Zellen in der Histochemie. Die einzelnen Zellen werden hierbei innerhalb des Bildes lokalisiert und in zwei Kategorien (z. B. positiv/negativ) eingeteilt. Klassifikationsaufgaben kommen vor allem dann zum Einsatz, wenn allein anhand von Bilddaten (also ohne Einbeziehung validierter Scores) klinische Bewertungen erstellt werden sollen. Für eine Kohorte finnischer Darmkrebspatienten konnte beispielsweise in einer retrospektiv­prospektiven Studie gezeigt werden, dass allein die KI-basierte Auswertung der Zellkerne in Tissue-Micro-Arrays eine bessere Vorhersage der Fünfjahres-Überlebensrate erzielte als drei erfahrene Pathologen, die die gesamte Information der histologischen Schnitte zur Verfügung hatten [2].

Bei der Segmentierung wird für jede Zelle eine pixelgenaue Kontur berechnet. Dies ist wichtig, da Form und Fläche der Zellen essenziell für das Grading vieler Tumoren sind. Die größte Schwierigkeit liegt hier in der korrekten Beurteilung von Struktur­überlappungen, da beispielsweise zwei gesunde Zellen vom Computer nicht als eine zu große, morphologisch veränderte Zelle bewertet werden dürfen. Aktuelle Arbeiten befassen sich damit, das gesamte Slide in die unterschiedlichen Gewebeklassen (Mucosa, Bindegewebe etc.) zu partitionieren. 

Meist werden unterschiedliche Algorithmen kombiniert. Nachdem beispielsweise eine Tumorregion detektiert und segmentiert wurde, können mithilfe eines Detektors für Lymphozyten automatisch die den Tumor infiltrierenden Lymphozyten (TIL) gezählt werden. Daraus ergibt sich dann ein positiver prognostischer Faktor.

Praktisches Vorgehen

So unterschiedlich die drei Aufgabenstellungen auch sein mögen, die Herangehensweise ähnelt sich: Zunächst wird eine Grundwahrheit (ground truth) erstellt, indem Daten aus digitalisierten Slides gesammelt und von menschlichen Experten annotiert werden. Für eine reine Klassifikationsaufgabe reicht als Annotation der klinische Befund. Sollen hingegen einzelne Objekte detektiert oder segmentiert werden, so muss dies zunächst in einer ausreichend großen und möglichst repräsentativen Menge von Bildern für jedes Strukturelement mühsam per Hand erledigt werden.

Die annotierten Daten werden anschließend in drei Portionen aufgeteilt: Trainings-, Validations- und Testdaten. Dabei wird der Großteil – oft bis zu 80% – dem Trainingsset zugewiesen. Mit diesen Daten wird das neuronale Netz trainiert. Während des Trainings prüft man regelmäßig anhand der Daten aus dem Validationsset, wie gut das Netz schon abschneidet. So lassen sich bestimmte Parameter – z. B. die Lerngeschwindigkeit oder die Anzahl der benötigten Wiederholungen – feinjustieren. Die finale Güte des Netzes wird anhand des Testsets geprüft, das annotierte Daten enthält, die das Netz zuvor noch nie gesehen hat. Ist die Genauigkeit hier signifikant schlechter als für das Validationsset, dann besteht der Verdacht auf sog. Overfitting – das Netz generalisiert nicht gut, sondern hat lediglich die Trainingsdaten „auswendig gelernt“.

Folgende Punkte sind beim Training eines neuronalen Netzes zu beachten:
Das Netz kann nur so gut werden wie die Grundwahrheit. Daher sollte es von einem – besser von mehreren – erfahrenen Pathologen erstellt werden. Hierbei ist es sehr wichtig, für welchen Einsatz das Netz konzipiert wird. Vorbereitete und annotierte Daten als Grundwahrheit können nur dann sinnvoll wiedergegeben werden, wenn die Primärannotation sehr präzise (z. B. Tumor, Entzündung, Desmoplasie etc.), und sehr aufwendig erstellt wurde. Sollen nun später neue Fragestellungen wie z. B. die peritumorale Entzündung bewertet werden, sind auch neue Annotationen nötig, die diese Veränderungen beschreiben. Dieser Hintergrund verdeutlicht die Komplexität der Zusammenhänge von Annotation und Input durch den Facharzt und das Ergebnis für die jeweilige Fragestellung, die das neuronale Netz liefern kann. Damit es auch in der Routine bestehen kann, ist es wichtig, dass die Trainingsdaten genügend Varianz aufweisen – z. B. Bilder verschiedener Scanner und aus verschiedenen Laboren. Es ist zudem üblich, die Daten künstlich zu vermehren (Data Augmentation), indem man die verfügbaren Bilder dupliziert, und zur Erhöhung der Varianz beispielsweise rotiert, verzerrt, mit Rauschen überlagert oder die Farbsättigung verändert.

Von der Black Box zur Glass Box

Tiefe neuronale Netze bestehen zum Teil aus über hundert Schichten und tausenden von Neuronen. Diese Komplexität bewirkt, dass durch Deep Learning sogar „super-human“-Ergebnisse erzielt werden können. Aber sie hat auch ihre Schattenseiten: Wie der Computer zu einem Ergebnis kommt, ist selbst für den Entwickler nicht mehr nachvollziehbar; der Entscheidungsweg des Computers kann nicht erklärt werden. Somit ist es nicht von vornherein auszuschließen, dass der Computer zum Beispiel Färbeartefakte für typische Charakteristika von Tumorzellen hält, oder dass eine bestimmte Gewebe- oder Zellart fehlinterpretiert wird, weil sie im Trainingsset nicht ausreichend häufig repräsentiert war.

Von Seiten der Anwender und vor allem auch aus regulatorischer Sicht wäre es unbedingt wünschenswert, wenn die Entscheidungen neuronaler Netze transparent und damit auch korrigierbar wären. Das Forschungsfeld, das sich mit der Erklärbarkeit von Deep-Learning-Modellen befasst, wird als Explainable AI – kurz xAI – bezeichnet. Bei der Auswertung von Bilddaten ist ein wichtiges Indiz, welche Bildbereiche die Entscheidung am stärksten beeinflusst haben. Hierzu wurden Techniken entwickelt, die es ermöglichen, für ein bestimmtes Ausgabeneuron gewissermaßen zurückzuverfolgen, durch welche Pixel im Bild es aktiviert wurde. Beispielsweise kann eine Heatmap (Abb. 2), die wichtige Areale farblich hervorhebt, anzeigen, wo der Computer den Tumor im Whole-Slide gefunden hat und wie sicher er sich dieser Zuordnung ist. Ein noch weitergehender Ansatz ist die Extraktion von interpretierbaren Wenn-Dann-Regeln im Sinne der klassischen Expertensysteme. Allerdings stößt dieser Versuch bei komplexen Aufgaben wie der Interpretation histologischer Bilder rasch an seine Grenzen; auch menschliche Experten können nicht immer in Worte fassen, wie sie zu einem bestimmten Befund gelangt sind.

Hilfreich für die Beurteilung des Computerergebnisses ist es schließlich auch, wenn ähnliche Fälle aus derselben Klasse (z. B. Tumor) oder auch aus einer Gegenklasse (z. B. Entzündung) samt deren kompletter Befundung zum Vergleich präsentiert werden. Solche Beispiele sollen den Experten zu einem kritischen Hinterfragen anregen und den Lernerfolg des Netzes auch nach Abschluss der initialen Trainingsphase immer weiter verbessern.
Tatsächlich zählen heutige Systeme zur Kategorie der „Weak AI“ – sie können nur eine spezielle Aufgabe leisten – während Pathologen aus ihrer Erfahrung lernen und in der Lage sind, Gelerntes auf neue Aufgaben zu übertragen.       

Autoren
Volker Bruns
Fraunhofer-Institut für Integrierte Schaltungen IIS
Universitätsklinikum Erlangen
Dr. Carol Geppert
Pathologisches Institut,
Universitätsklinikum Erlangen