Im Jahr 2025 kamen verschiedene neue Frontier-Modelle auf den Markt. Mitte Dezember 2025 zeigen sich Gemini 3 Pro (Google), Claude Opus 4.5 (Anthropic) und GPT-5.2 (OpenAI) als Anführer des „AI Leaderboard“ [1]. An der Kräfteverteilung der Large-Language-Model(LLM)-Giganten hat sich also nichts verändert, allerdings kommen immer wieder Modelle neuer Anbieter in die höheren Ränge (z. B. Nemotron 3 Nano [Nvidia] oder GLM4.6 [Zhipu AI]). Während im Consumer-Bereich weiterhin die klassischen Chatbot-Oberflächen von ChatGPT, Gemini oder MetaAI genutzt werden, geht der Trend im Business-Umfeld hin zu sogenannten KI-Agenten (= agentische KI-Systeme). Darunter versteht man Systeme, in denen ein LLM als zentrale Instanz auf verschiedene Tools (z. B. eine Websuche, einen Code Interpreter usw.) zugreifen und somit direkt mit der Umwelt interagieren kann. Doch trotz aller dieser Entwicklungen bleiben die versprochenen Produktivitätsgewinne in vielen Firmen bisher aus [2].
Im Gesundheitswesen sehen wir eine ausgeprägte Forschungstätigkeit zu Einsatzmöglichkeiten von LLM, aber nur eine geringe Übersetzung publizierter Use Cases in routinemäßig einsetzbare, zertifizierte Medizinprodukte. Im Bereich der Labormedizin sind die Forschungstätigkeiten zu den LLM aktuell noch überschaubar. Dem stehen immer neue Höhenflüge der großen KI-Anbieter in medizinischen Benchmarks (z. B. HealthBench) gegenüber. Eine besondere Überraschung waren die Ergebnisse der neuen Benchmark „MAST“ (Medical AI Superintelligence Tests), bei dem das Modell „LiSA 1.0“ der deutschen Firma AMBOSS im „Overall Score“ Platz 1 erreichte – noch vor Modellen wie Gemini 2.5 Pro oder GPT-5 [3]. Somit ist es nicht verwunderlich, dass sich verstärkt das Problem des „Shadow Use“ zeigt – also des Einsatzes von KI-Produkten wie ChatGPT in der täglichen Routine, fernab deren Zweckbestimmung und meist ohne explizite Erlaubnis des Arbeitsgebers sowie ohne Zulassung als Medizinprodukt unter MDR/IVDR und dem EU AI Act. Neben den klassischen Frontier-Modellen wurden auch verschiedene agentische KI-Systeme für den Einsatz in der Wissenschaft (z. B. Agent Laboratory [4] oder Googles Co-Scientist [5]) sowie der Diagnostik (z. B. Microsoft AI Diagnostic Orchestrator [6]) und Therapie (z. B. TxAgent [7]) vorgestellt.
Kann ich „meinem“ LLM vertrauen?
Nachdem GPT-5 großspurig als (aktuell) bestes Modell zur Beantwortung medizinischer Fragen beworben wurde, adressierte ein Kommentar in Nature Medicine vom 16.10.2025 die nach wie vor vorhandenen Probleme der Sprachmodelle: In über 50 % der Fälle versagte GPT-5 bei der Lösung sicherheitskritischer medizinischer Szenarien, und „Halluzinationen“ kamen immer noch zu häufig vor (z. B. GPT4o in 50 % der Fälle) [8]. Betrachtet man das bereits länger bekannte Problem der „Halluzinationen“ genauer, so wird klar, dass dies innerhalb der aktuell genutzten Modellarchitektur der Transformer-Modelle nicht verhindert werden kann [9]. Das als Sycophancy bekannte Phänomen konnte ebenfalls als Ursache für medizinische Falschaussagen identifiziert werden. Auf Deutsch bedeutet der Begriff „Speichelleckerei“ und bezeichnet die Tendenz eines Modells, Antworten zu generieren, die dem User – unabhängig vom Wahrheitsgehalt – möglichst gut gefallen [10]. Im Bereich der KI-Agenten zeigen sich neben Performance-Problemen oder der unvollständigen bzw. falschen Erledigung von Aufgaben auch IT-Sicherheitsprobleme bei Nutzung der neuen Kommunikationsprotokolle MCP (Model Context Protocol) und A2A (Agent-to-Agent).
Neben dem medizinischen Fachpersonal werden Chatbots auch von Patient:innen genutzt. Hier zeigen erste Daten, dass diese KI-generierten medizinischen Ratschlägen, trotz geringer Genauigkeit, hohes Vertrauen schenken [11]. Inwieweit Mediziner:innen die Antworten eines Chatbots im stressigen Alltag einer Klinikstation, der Notfallambulanz oder einer vollen Praxis kritisch prüfen, darf ebenfalls infrage gestellt werden. Somit muss für die Zukunft der Fokus auf vertrauenswürdigen Modellen bzw. KI-Agenten liegen.
Wie kann Vertrauen geschaffen werden?
Um die Möglichkeiten und Grenzen von KI-Modellen, vor allem auch der Sprachmodelle, richtig einschätzen und die Tools somit reflektiert nutzen zu können, ist ein Grundverständnis der Funktionsweise unabdingbar. Als Basis einer allgemeinen KI-Kompetenz wird eine grundlegende Datenkompetenz benötigt, ohne die ein Grundverständnis nicht suffizient erreicht werden kann. Eine solche KI-Kompetenz wird auch im EU AI Act Artikel 4 gefordert. Was das für die medizinischen Laboratorien bedeuten kann, hat die Sektion Digitale Kompetenz und KI der DGKL in einem kürzlich erschienenen Opinion Paper vorgeschlagen [12].
Mittlerweile haben die ersten Fachgesellschaften eigene Anleitungen zum Umgang mit LLM in der klinischen Praxis publiziert. In der ESMO Guidance werden zum Beispiel drei Arten des Einsatzes von LLM unterschieden: Systeme, bei denen Patient:innen mit einem LLM interagieren, bei denen ein Arzt oder eine Ärztin mit einem LLM interagiert oder bei denen ein LLM im Hintergrund arbeitet (z. B. zur Datenextraktion) [13]. Je nach Art des Einsatzes gibt die Anleitung Hinweise, was beachtet werden und was vermieden werden sollte.
Seit Mitte 2025 gibt es den ersten, als Klasse-IIb-Medizinprodukt zertifizierten, LLM-basierten Chatbot für Gesundheitspersonal aus Deutschland. Neben dem klassischen Chatbot User Interface soll in Zukunft auch eine Anbindung an bestehende Systeme wie Praxisinformations- oder Laborinformationssysteme (LIS) über Programmierschnittstellen möglich sein [14]. Vor allem im Gesundheitsbereich kann eine externe Validierung eines LLM-basierten Tools als Medizinprodukt Vertrauen schaffen, da für den Markteintritt Qualitäts- und Risikomanagementstrategien umgesetzt werden müssen.
Um das Vertrauen weiter zu erhöhen, existieren verschiedene Anpassungen der Architektur von Sprachmodellen. Das Chain-of-Thought Prompting – also der explizite Hinweis an ein Modell, die Fragestellung in Unterfragen zu zerlegen und systematisch zu bearbeiten – konnte kurz nach Aufkommen der ersten Reasoning-Modelle die Halluzinationsraten senken. Zudem wurden Retrieval-Augmented-Generation(RAG)-Datenbanken als Wissensgrundlagen der Antwortgenerierung etabliert. So konnten weitere Anpassungen der Architektur wie die Nutzung von verschiedenen Experten, bei denen nur spezialisierte Teile des neuronalen Netzes aktiv sind (Mixture of Experts; MoE) oder Agenten (Mixture of Agents; MoA), die Fehlerrate der KI-Tools weiter senken. OpenAI publizierte im September 2025 ein Paper, in dem der Einfluss der Datenqualität im Pre-Training – dem Erlernen „grundsätzlicher Sprachfähigkeit“ – sowie des Post-Trainings – der Optimierung eines Modells zum Beispiel als Chatbot – auf die Halluzinationsrate und Strategien zur
Reduktion der Halluzinationen durch Optimierung des Pre- und Posttrainings diskutiert wurden [15]. Im Bereich der IT-Security hat das Bundesinstitut für Sicherheit in der Informationstechnik (BSI) mittlerweile eine Sammlung an hilfreichen Dokumenten zur Integration von KI-Modellen, zum Beispiel von extern bereitgestellten generativen KI-Modellen, publiziert [16]. Im Bereich des Datenschutzes hat die Datenschutzkonferenz eine „Orientierungshilfe zur Nutzung von generativen KI-Systemen mit RAG-Methode“ veröffentlicht [17].
Welche konkreten Anwendungen gibt es für das Labor?
Wie bereits erwähnt, gibt es bisher nur wenige Publikationen, die sich systematisch mit der Untersuchung von Einsatzmöglichkeiten von LLM in der Labormedizin befassen. Häufig genannte Anwendungsszenarien sind die Befundinterpretation und Beantwortung medizinischer Fragen, die Datenanalyse, die Literaturrecherche sowie der Einsatz als Clinical Decision Support System [18–21]. Publikationen, die konkret entwickelte Anwendungsfälle fernab der Nutzung der Frontier-Modelle präsentieren gibt es kaum oder lediglich als Proof-of-Concept [22]. Bis auf das oben genannte System sind dem Autor keine als Medizinprodukte zertifizierten, LLM-basierten Anwendungen bekannt [14]. Trotzdem existieren verschiedene Einsatzmöglichkeiten von LLM-basierten Tools, die die Arbeit im Labor erleichtern können. Tab. 1 enthält mögliche Anwendungsbeispiele.