Der Wissenszuwachs in der Medizin schreitet im Zeitalter von Genomik und Proteomik, personalisierter Diagnostik und Therapie, digitalen Gesundheitslösungen, maschinellem Lernen, neuen Seuchen und vielem mehr so rasant voran, dass es schwerfällt, den Überblick über die aktuellen Entwicklungen zu behalten. Eine gründliche und effiziente Literaturrecherche ist daher unerlässlich, um auf hohem wissenschaftlichem Niveau die bestmögliche Patientenversorgung zu gewährleisten. Herkömmliche Methoden der Literaturrecherche, sprich das manuelle Durchsuchen großer Datenbanken wie PubMed oder Google Scholar, sind jedoch zeitaufwendig und mühsam. Seit der Veröffentlichung des großen Sprachmodells (LLMs) ChatGPT im Jahr 2022 haben sich künstlich intelligente Werkzeuge rasant weiterentwickelt. Nun gibt es die ersten LLM-basierten Tools, die die Rechercheprozesse revolutionieren könnten, indem sie große Mengen an medizinischer Literatur in kürzester Zeit finden, analysieren und relevante Informationen unter Angabe der Quellen extrahieren.
Kurze Geschichte der Sprachmodelle
Die Wissenschaft, die sich mit der sprachlichen Interaktion zwischen Mensch und Computer befasst, wird als Natural Language Processing (NLP) bezeichnet. Als Querschnittsdisziplin der künstlichen Intelligenz (KI), der Computerwissenschaften und der Linguistik hat sie das Ziel, Computern das Verstehen, Interpretieren und Generieren von natürlicher Sprache – in der Regel also Alltagssprache – zu ermöglichen. Es entfällt die Kommunikation über eine Übersetzungsebene in Form einer Programmiersprache.
Um dieses Ziel zu erreichen, wurden in der Geschichte des NLP verschiedenste Algorithmen aus dem Bereich der regelbasierten Systeme, des maschinellen Lernens oder des Deep Learning mit mehrschichtigen neuronalen Netzen genutzt. Bereits im Jahr 1906 wendete Andrey Markov die von ihm entwickelte Markov-Kette in Form sogenannter „n-Gramme“ an, um aus den vorhergehenden Wörtern eines Satzes das jeweils nachfolgende Wort vorherzusagen. 1950 publizierte Claude Shannon seinen Aufsatz „The Mathematical Theory of Communication“ [1], mit dem er heute noch relevante Prinzipien der Sprachmodellierung begründete.
Neben den wahrscheinlichkeitsbasierten Sprachmodellen wurde auch an regelbasierten Ansätzen gearbeitet. So entstand 1966 mit „ELIZA“ ein erster Chatbot („Plauderroboter“), der mithilfe einfacher Regeln ein psychotherapeutisches Patientengespräch simulierte. Zu Beginn der 1970er-Jahre begann der erste „KI-Winter“, in dem sich der Fokus von den wahrscheinlichkeitsbasierten neuronalen Netzen in Richtung regelbasierter Systeme verschob. Erst zu Beginn des 21. Jahrhunderts rückten neuronale Netze wieder in den Fokus des Interesses, da nun ausreichend Trainingsdaten und Rechenkraft sowie neue Algorithmen zur Verfügung standen, um selbstlernende Computersysteme zu trainieren.
2001 stellten Bengio et al. eines der ersten Sprachmodelle auf Basis eines neuronalen Netzes vor [2]. Über die Recurrent Neural Network Language Models (RNNLMs) und die Long Short-Term Memory Networks (LSTMs) kam es letztendlich zur Weiterentwicklung der heute so aktuellen, vortrainierten Transformer-Modelle (Pretrained Transformers; PT).
Bei diesen Modellen unterscheidet man grob zwischen unidirektionalen (= Decoder; Ziel: Sprachgeneration, z. B. GPT [Generative Pretrained Transformer]), bidirektionalen (= Encoder; Ziel: Sprachverständnis, z. B. BERT) und Sequence-to-Sequence-Modellen. Die GPT- und BERT-basierten Modelle haben sich in den vergangenen Jahren zu den leistungsfähigen Modellen entwickelt, die die KI-Szene heute dominieren.
Wo stehen wir heute?
Nachdem ChatGPT erstmals für die Öffentlichkeit zur Nutzung freigegeben worden war, registrierten sich innerhalb von nur fünf Tagen über eine Million Menschen, um das LLM zu testen. Es handelte sich dabei um eine verbesserte Version des GPT3.5-Modells (veröffentlicht im März 2022). Mittlerweile steht die Version GPT4o1 zur Nutzung bereit, und GPT4o3 („o2“ gibt es aufgrund der Namensähnlichkeit zum Telekommunikationsanbieter O2 nicht) ist bereits angekündigt. Auch andere Big Tech Player haben in der Zwischenzeit ihre Modelle vorgestellt und stetig verbessert.
Bei Google wird aktuell das Gemini-1.5-Modell mit zusätzlichen Fähigkeiten ausgestattet, und Gemini 2.0 steht als „Vorschau“ im Google-Bezahlmodell bereits zur Verfügung. Meta hat mit seinem Llama-3.1-Modell in verschiedenen Größen (8B, 70B, 405B) den Weg des (Pseudo-)„Open Source“ gewählt (wobei nur die Modelle, nicht jedoch die Trainingsdaten „Open Source“ sind) und Llama 3.3 70B angekündigt. Das Anthropics-„Claude“-Modell liegt aktuell in der Version 3.5 („sonnet“) vor. Hugging Face, eine Online-Community für Modelle aller Art (Computer Vision, Natural Language Processing, Audio usw.), listet mittlerweile über 1,2 Millionen veröffentlichte KI-Modelle.
Inzwischen sind einige der Modelle auch in der Lage, multimodal zu arbeiten, das heißt, über Mediengrenzen hinweg Aufgaben im Bereich Sprache/Text, Bild, Video, Audio, Programmierung und Übersetzung zu bearbeiten. Schaut man sich exemplarisch das Absolvieren des deutschen medizinischen Staatsexamens an, so liegt hier nach aktueller Studienlage GPT4.0 mit 93,1 % richtigen Antworten im M1 und 94,0 % richtigen Antworten im M2 klar an der Spitze (zum Vergleich: Gemini 1.5 Pro mit 74,8 % in M1 und 65,5 % in M2) [3]. Da sich die großen Tech Player wie Microsoft (OpenAI, die Firma hinter ChatGPT und GPT4o1, gehört zu großen Teilen Microsoft), Google und Amazon auch im medizinischen Bereich immer stärker aufstellen, wird in Zukunft noch mit spannenden Entwicklungen der LLMs für das Gesundheitswesen zu rechnen sein.
Werkzeuge für die Literaturrecherche
Vor allem im Bereich der Literaturrecherche gibt es einige sehr interessante Werkzeuge – eine Auswahl ist in Tab. 1 zusammengestellt (u. a. [4]).