Performance von Entscheidungsgrenzen: ROC it!
DOI: https://doi.org/10.47184/td.2025.03.06Entscheidungsgrenzen dienen in der Labormedizin der Erkennung von Krankheiten oder Krankheitrisiken. Im Gegensatz zu Referenzgrenzen hängt ihre Lage von der klinischen Fragestellung ab. Ihre diagnostische Leistungsfähigkeit wird durch Performancekriterien wie Sensitivität und Spezifität charakterisiert. Für die Bewertung und Optimierung kommt die Receiver Operating Characteristic (ROC) zum Einsatz.
Schlüsselwörter: Entscheidungsgrenzen, Sensitivität, Spezifität, ROC-Analyse
Jeder Laborbefund enthält neben Analyt, Messwert und Einheit eine weitere Spalte mit … ja was eigentlich genau?
Meist steht dort als Überschrift das Wort Referenzbereich, manchmal auch Normalbereich oder gar die sehr veraltete Bezeichnung Normwert – aber nur selten das, was es wirklich ist. Schaut man in die Rili-BÄK, so findet man im Abschnitt A 6.3.2 die korrekte Beschreibung des Inhalts: „Referenzbereiche oder andere Hinweise zur Interpretation der Untersuchungsergebnisse“. Deshalb sind die üblichen Spaltenüberschriften meistens zu eng gefasst. Korrekt wären Sammelbegriffe wie „Interpretationshilfe“ oder – im Amtsdeutsch der elektronischen Patientenakte – „Richtgrößen“.
Woran aber erkennt man nun, ob es sich bei der Angabe Natrium 135–145 mmol/L oder CRP < 5 mg/L um Referenz- oder Entscheidungsgrenzen handelt? Als einfache Faustregel kann gelten: Wenn sowohl eine Untergrenze als auch eine Obergrenze angegeben ist, so handelt es sich mit hoher Wahrscheinlichkeit um ein Referenzintervall; steht dort hingegen nur ein Wert mit einem Kleiner- oder Größer-Zeichen, dann ist es eher eine Entscheidungsgrenze. Aber Ausnahmen bestätigen die Regel. So weisen Angaben wie ALT < 50 U/L keineswegs auf eine Entscheidungsgrenze hin, sondern auf eine fehlende Untergrenze des Referenzintervalls. Diese wäre in vielen Fällen leicht bestimmbar, lag aber früher unter der Nachweisgrenze der damals noch zu unempfindlichen Labormethoden. Hier ist unbedingt eine Aktualisierung aufgrund von Hersteller- und Literaturangaben sowie eigenen Messungen angezeigt.
Während Referenzgrenzen gesunde Populationen charakterisieren, erfordern Entscheidungsgrenzen – wie der Name schon sagt – medizinische Entscheidungen oder auch Aktionen bei Vorliegen von Krankheiten oder Krankheitsrisiken. Ihre Lage hängt von der Fragestellung ab. So spricht ein CRP-Wert über 100 mg/L für eine bakterielle Infektion, während ein Wert über 5 mg/L auch bei Entzündungen anderer Genese vorkommt und ein dauerhaft erhöhter CRP-Wert über 3 mg/L auf ein erhöhtes kardiovaskuläres Risiko hinweist.
Ein Beispiel
Abb. 1 zeigt Beispieldaten, die für die Erstellung von Entscheidungsgrenzen benötigt werden: In der mittleren Spalte steht der Messwert für CRP in mg/L und in der rechten Spalte die korrekte Entscheidung: 1 steht für die Positivklasse (Entzündung), 0 für die Negativklasse (keine Entzündung).
Wir gehen in unserem Beispiel davon aus, dass die Positivklasse tendenziell höhere Werte als die Negativklasse hat. Andernfalls vertauscht man für die nachfolgenden Berechungen einfach die Klassenbezeichnungen. Im Idealfall hätte man gern einen Schwellenwert (Cutoff), der die Positivklasse perfekt von der Negativklasse trennt, aber in der Realität werden sich die beiden Klassen immer mehr oder weniger stark überlappen, sodass falsch-positive oder falsch-negative Werte unvermeidlich sind – egal, wie man die Entscheidungsgrenze legt.
Sensitivität und Spezifität
Um eine solche imperfekte Entscheidungsgrenze zu beurteilen, stellt die Statistik der Medizin zwei zentrale Maße zur Berechnung der Leistungsfähigkeit (Performance) eines Tests zur Verfügung: Die Sensitivität gibt an, wie groß der Anteil der Kranken in dieser Stichprobe ist, die mit der Entscheidungsgrenze korrekt als positiv klassifiziert werden. Formal wird die Sensitivität berechnet, indem man die Anzahl der Richtig-Positiven – hier also der „roten Fälle“ rechts von der Linie – abzählt und das Ergebnis durch die Gesamtanzahl der Kranken auf beiden Seiten der Linie teilt. Die Spezifität ergibt sich analog, indem man die Anzahl der Richtig-Negativen – also der „grünen Fälle“ links von der Linie – durch die Gesamtzahl aller Gesunden dividiert.
Das Ergebnis ist in Tab. 1 in Form einer Vierfeldertafel (Konfusionsmatrix) zusammengefasst.
Tab. 1: Vierfeldertafel für das CRP-Beispiel mit einem Cutoff von 5 mg/L.
K = Krankheit; T = Test; TN = TRUE NEG; FN = FALSE NEG; TP = TRUE POS; FP = FALSE POS.
K+ | K– | Summe | |
T+ | 70 (TP) | 4 (FP) | 74 |
T– | 30 (FN) | 96 (TN) | 126 |
Summe | 100 | 100 | 200 |
Die richtig- und falsch-positiven bzw. -negativen Testergebnisse werden mit TP und FP bzw. TN und FN abgekürzt. Daraus ergeben sich für die Berechnung von Sensitivität und Spezifität folgende Formeln:

Durch die Wahl einer Entscheidungsgrenze von 5 mg/L erhält man also bei der vorliegenden Verteilung der CRP-Werte einen sehr spezifischen, aber wenig sensitiven Test. Das bedeutet, dass dieser Cutoff die Gesunden in der Stichprobe sehr sicher als gesund identifiziert (hohe Spezifität), dass er aber auch relativ viele Kranke, die sich links von der senkrechten Linie befinden, fälschlich als gesund einordnet (geringe Sensitivität für die gesuchte Erkrankung).
Aus Abb. 1 ist leicht ersichtlich, dass man die Verhältnisse umkehren könnte, indem man den Cutoff einfach nach links verschiebt. Wählt man beispielsweise eine Schwelle von 3 statt 5 mg/L, so ergibt sich eine Sensitivität von 94 % und eine Spezifität von 73 %. Nun werden also viel weniger Kranke in der Stichprobe fälschlich als gesund eingestuft (hohe Sensitivität), dafür aber viele Gesunde, die sich rechts von 3 mg/L befinden, fälschlich krank gemacht (geringe Spezifität).
Aus diesem Beispiel wird klar, dass eine hohe Sensitivität oder Spezifität allein keinen Rückschluss auf die Leistungsfähigkeit eines Test erlaubt, denn man könnte den Cutoff willkürlich so weit nach links oder rechts schieben, dass eine der beiden Klassen (grün oder rot) zu 100 % richtig erkannt wird – allerdings immer zulasten der anderen Klasse, die dann viele Fehlklassifizierungen enthielte.
Man muss also immer einen Kompromiss zwischen Sensitivität und Spezifität finden. Hier ist ein praktisches Beispiel: Bei einem Bevölkerungsscreening für HIV wird man großen Wert auf hohe Spezifität legen, um möglichst wenige Gesunde fälschlich mit einer folgenschweren Fehldiagnose zu belasten. Für ein Screening von Blutprodukten dagegen sollte die Sensitivität 100 % betragen, da man eine Empfängerinfektion unbedingt ausschließen muss – selbst auf die Gefahr hin, dass man relativ viele nicht infizierte Konserven vorsichtshalber verwirft.
ROC-Analyse
Anstelle die Entscheidungsgrenze willkürlich nach rechts oder links zu schieben, bietet es sich an, für jeden nur denkbaren Schwellenwert zwischen der niedrigsten und der höchsten CRP-Konzentration Sensitivität und Spezifität zu berechnen und eine Lage zu suchen, die die klinische Frage am besten beantwortet.
Abb. 2 demonstriert diesen Ansatz anhand einer ROC-Kurve; das Kürzel ROC steht für Receiver Operating Characteristic (siehe Infos hier).
Auf der x-Achse wird der Anteil der Falsch-Positiven (FPR = False Positive Rate) und auf der y-Achse der Richtig-Positiven (TPR = True Positive Rate) aufgetragen. TPR entspricht der Sensitivität, und FPR entspricht 1 – Spezifität. Die negative Beziehung zwischen FPR und Spezifität wird in Abb. 2 dadurch visualisiert, dass die x-Achse in umgekehrter Ausrichtung von 1 nach 0 geht.
Je gewölbter die Kurve ausfällt, desto besser trennt der Test die beiden Klassen. Als Maßzahl dient die Fläche unter der Kurve (AUC = Area Under the Curve). Eine AUC von 1, bei der die blaue Linie die gesamte Fläche umschließen würde, entspräche der kompletten Trennung der beiden Klassen. Verliefe die blaue Linie hingegen entlang der Winkelhalbierenden, so wäre die AUC 0,5 – und der Test würde die beiden Klassen überhaupt nicht trennen. Der für unser Beispiel berechnete Wert von 0,945 bei einem Cutoff von 3,9 mg/L spricht für einen leistungsstarken Test.
Der rote Punkt in Abb. 2 wurde mithilfe des Youden-Index berechnet (J = Sensitivität + Spezifität – 1), also aus der Summe von Sensitivität und Spezifität abzüglich einer Konstanten 1, die bewirkt, dass das Ergebnis immer zwischen 0 und 1 liegt. Die 0 bedeutet „keine Trennung“, und die 1 steht für „perfekte Trennung“. Um den Cutoff für höchste Richtigkeit zu finden, ermittelt man den Youden-Index für jeden denkbaren Cutoff und wählt den höchsten Punkt der Kurve, der hier bei 3,9 mg/L liegt (Abb. 3). Um zu beweisen, dass diese Entscheidungsgrenze tatsächlich besser klassifiziert als die beiden willkürlich gewählten Grenzen von 3 und 5 mg/L, berechnen wir die Richtigkeit (Accuracy) der Klassifikation aus der Summe aller richtig klassifizierten Fälle (TP plus TN) dividiert durch die Gesamtzahl der Fälle. In den zwei willkürlich gelegten Beispielen liegt die Richtigkeit bei etwa 83 %, für den Cutoff von 3,9 mg/L hingegen bei 88 %.
Prädiktive Werte
Die Leistungsfähigkeit (Performance) eines Labortests sagt allerdings nur wenig über seine Aussagekraft für einzelne Patient:innen aus, wenn die Prävalenz der gesuchten Krankheit stark von 50 % (wie im vorliegenden Beispiel) abweicht. Für eine ausführliche Besprechung der hierfür berechneten prädiktiven Werte sei auf die Statistikserie auf der Trillium-Website verwiesen (www.trillium.de/services/statistik-in-der-medizin).