Referenzintervall-Überprüfung: Ein Konzept wird erwachsen

Seit 2018 wird die Überprüfung von Referenzintervallen aus den Routinewerten des Labors von der IFCC empfohlen. Wir berichten über praktische Erfahrungen mit zwei statistischen Ansätzen, die ähnliche Ergebnisse liefern. Für den Einsatz in der täglichen Routine müssen die Werkzeuge allerdings an das Laborinformationssystem angebunden werden.

Das Konzept der Referenzintervalle feiert dieses Jahr einen runden Geburtstag: Vor 50 Jahren gründete die International Federation of Clinical Chemistry (IFCC) ein „Expert Panel on Reference Values“, das die Grundlagen für die Beurteilung von Laborwerten in Gesundheit und Krankheit schaffen sollte [1]. Kein Hersteller könnte heute einen Test mit Erfolg vermarkten, ohne Referenzgrenzen anzugeben, und kein Labor darf Analysenresultate übermitteln, ohne diese Grenzen überprüft zu haben. Was selbst Laborfachleute oft nicht wissen: Für die Geräte- und Reagenzhersteller ist die Angabe von Referenzintervallen nur eine Kann-Bestimmung der IVDR (In-vitro Diagnostics Regulation), für Labore ist die Überprüfung der Angaben dagegen ein Muss.
Mit Hinweis auf ein international anerkanntes IFCC/CLSI-Dokument [2] enthält nämlich nahezu jeder Methoden- Beipackzettel eine explizite Aufforderung zur Referenzintervallprüfung, und da die Herstellerangaben laut Richtlinie der Bundesärztekammer (Rili-BÄK) ein verpflichtender Bestandteil jeder Verfahrensbeschreibung sind, muss die Aufforderung auch umgesetzt werden. Dies lässt sich fachlich durchaus begründen, weil die Referenzgrenzen bekanntlich Schwankungen in Abhängigkeit vom Einsenderkollektiv (Alter, Geschlecht, Ethnie), der Präanalytik (z. B. Röhrchentyp, Abnahmebedingungen) und der Analytik (Methode, Reagenz- und Antikörpercharge usw.) unterliegen.

Hohe Hürden

In der Praxis wurde dieses Konzept allerdings bis vor wenigen Jahren nicht wirklich gelebt, weil die organisatorischen, finanziellen und teilweise auch ethischen Hürden zu hoch waren. Kaum ein Labor ist in der Lage, für alle seine Tests entsprechende Studien an der eigenen Einsenderklientel durchzuführen. Die Überprüfung muss nämlich für jede in den Analysen-Stammdaten aufgeführte Subpopulation (männlich, weiblich, gegebenenfalls Schwangere, Neugeborene, Säuglinge, Kinder, Senioren) erfolgen und nach ISO 15189 „regelmäßig“,  zumindest aber bei jeder Umstellung der Präanalytik oder Analytik, komplett wiederholt werden [3]. Hier geht es also bei 200 bis 300 Analyten mit jeweils vier bis zehn Subkollektiven um Hunderte von Überprüfungen pro Jahr und Labor. Der damit verbundene Aufwand ist enorm und war bislang im täglichen Betrieb nicht zu leisten.
Abhilfe versprach eine IFCC-Empfehlung aus dem Jahr 2018 [4], die es erstmals gestattete, die Gruppe der offensichtlich Gesunden nicht mehr rein klinisch, sondern vorwiegend nach statistischen Kriterien zu definieren. Unmittelbar nach Erscheinen der neuen Leitlinie berichteten wir in dieser Zeitschrift über erste eigene Pilotstudien (Heft 2/2018) und entwickelten ein Schulungsprogramm, das seither regen Zuspruch findet (Abb. 1). 

Ein Erfahrungsbericht

Heute – knapp zwei Jahre später – kann man aufgrund der Erkenntnisse aus unseren Schulungen sowie dem Routine­einsatz am Deutschen Herzzentrum München sagen: Nachdem einige Kinderkrankheiten überwunden sind, wird das Konzept zunehmend erwachsen. Im Folgenden berichten wir über Erfahrungen aus der Routine und geben einen Ausblick auf mögliche künftige Entwicklungen.
Die neue Leitlinie empfiehlt ein mehrstufiges Verfahren, um Referenzgrenzen aus dem umfangreichen Datenpool der im Laborinformationssystem (LIS) enthaltenen Resultate zu ermitteln und dabei verschiedene statis­tische Algorithmen einzusetzen.
Folgende fünf Schritte sind erforderlich:  

  1. Auswahl geeigneter Messwerte (z. B. „first value“ = Wert bei Aufnahme),
  2. Partitionierung in Untergruppen (vor allem nach Geschlecht und Alter),
  3. Wahl eines statistischen Verteilungsmodells (z. B. normal versus lognormal),
  4. Identifizierung und Entfernung von nicht zum Verteilungsmodell passenden Resultaten,
  5. Berechnung der (theoretischen) 2,5- und 97,5-Perzentile aus dem Datenmodell. Diese beiden Werte entsprechen dann den Referenzgrenzen [3, 4].

 Als „indirekt“ bezeichnet man das Verfahren, weil es keine direkten Messungen an gesunden Referenzpersonen erfordert; man schließt vielmehr aus den Verteilungskurven gemischter Populationen, die aus normalen und abnormalen Werten bestehen können, auf statistische Kenngrößen des Referenzkollektivs (z. B. Mittelwert und Standardabweichung nach logarithmischer Transformation der Daten).
Die meisten von uns getesteten Algorithmen tolerieren bis zu 25 % „pathologische“ Resultate, die nicht zum Verteilungs­modell passen. Dies gilt umso eher, je weiter diese Werte vom Referenzintervall entfernt liegen. Es ist deshalb in der Regel nicht nötig, spezielle Patientengruppen wie etwa Intensiv- oder Tumorpatienten auszuschließen, wenn man nicht ausgerechnet Vitalparameter oder Tumormarker überprüfen möchte. Probleme bereiten eher grenzwertige Resultate, die sich nur schwer von unauffälligen Werten abgrenzen lassen, zum Beispiel leicht erniedrigte Hämoglobinwerte bei Eisenmangel oder grenzwertig erhöhte Leberwerte bei alimentärer Steatose.

Orientierende Vortests

Bevor man mit der eigentlichen statistischen Prüfung beginnt, sollte man unbedingt die Stammdaten des jeweiligen Verfahrens mit den Herstellerangaben vergleichen, um Eingabefehler, übersehene Anpassungen bei Methodenwechsel u. ä. auszuschließen. Ferner empfiehlt es sich, alle im Datensatz enthaltenen Werte vorab gegen das Lebensalter aufzutragen und die Referenzgrenzen einzuzeichnen. Eine solche Grafik zeigt auf einen Blick, ob die Referenzgrenzen zu den tatsächlichen Werten passen (Abb. 2).

QQ-Plot vs. Kerndichteschätzung

Prinzipiell sind die indirekten Verfahren schon genauso lang bekannt wie die direkten; das erste für den Einsatz in der Labormedizin beschriebene Verfahren stammt aus dem Jahr 1963 [5]. Darauf aufbauend wurden seither zahlreiche Modifikationen erarbeitet, die nach dem Begründer Robert G. Hoffmann als „modified Hoffmann approaches“ bezeichnet werden. Sie basieren alle auf dem Vergleich einer Reihe von Perzentilen (Quantilen) der untersuchten Population mit denjenigen einer theoretischen Verteilung – in der Regel einer trunkierten Normalverteilung [6].
Durch das in Abb. 1 beschriebene Stufenverfahren gelingt es, aus den Rohdaten die zentralen 95 % der unauffälligen Werte herauszuschneiden und mit geringem Rechenaufwand im sogenannten Quantil-Quantil-Plot (QQ-Plot) eine Gerade zu konstruieren, aus der man die Referenzgrenzen ablesen kann (Abb. 3 oben).
Eine zweite Gruppe von Verfahren basiert auf der Verteilungszerlegung mittels Kerndichteschätzung. Hierfür bieten leis­tungsfähige Statistikpakete Algorithmen an, die in einem deutlich rechenintensiveren Optimierungsprozess aus der Dichtekurve der originalen Mischpopulation die einzelnen Subkollektive zu identifizieren versuchen (Abb. 3 unten).

Auch das auf der Website der DGKL angebotene RLE-Programm (Reference Limit Estimator) basiert auf einer solchen Kerndichteschätzung [7]. Es erfordert allerdings pro Subgruppe mehrere tausend Patientenwerte und pro Referenzintervall mehrere Minuten Rechenzeit, sodass es sich eher für wissenschaftliche Zwecke (z. B. Multicenter-Studien) eignet. Eigene Untersuchungen mit QQ-Plots sowie den Statistikpaketen mclust und mixtools zur Kerndichteschätzung (Abb. 3) erbrachten auch bei Fallzahlen von wenigen Hundert in der Regel aussagekräftige Resultate.

Konfidenzintervalle

Generell darf man an die Berechnung von Referenzintervallen nicht die aus der Analytik gewohnten Qualitätsanforderungen stellen – und zwar unabhängig davon, ob man direkte oder indirekte Verfahren, QQ-Plots oder Kerndichteschätzungen einsetzt. Dies liegt an der Vielzahl von Annahmen, die jeder solchen Schätzung zwangsläufig zugrunde liegen, beginnend bei der unscharfen Definition des Begriffs „offensichtlich gesund“ über den Einfluss der Stichprobengröße bis hin zu den in der Realität nie ideal erfüllten (Normal-)Verteilungsannahmen.
Aus diesem Grunde bestimmen wir Konfidenzintervalle für Referenzgrenzen nicht mit herkömmlichen, parametrischen Verfahren [8], sondern durch tausendfache Ziehung von Zufallsstichproben (sog. Bootstrap-Verfahren). Aus Praktikabilitätsgründen kann man solche Verfahren allerdings in der Routine nur auf QQ-Plots anwenden, da hier die Rechenzeiten pro Durchgang im Millisekundenbereich liegen, während Kerndichteverfahren Sekunden bis Minuten benötigen.
Abb. 4 zeigt am Beispiel des Cholesterins die Auswirkungen unterschiedlicher Algorithmen: Während das Statistikpaket mixtools eine Unregelmäßigkeit in der Nähe des Gipfels unberücksichtigt lässt, deutet mclust die Schulter beim Pfeil als Subpopulation. Entsprechend unterschiedlich fallen die theoretischen Dichtekurven und die daraus geschätzten Referenzgrenzen aus.
Neben der Schätzunsicherheit bestätigt dieses Beispiel auch, dass Referenzgrenzen nicht identisch mit Entscheidungswerten sind [9] und dass deshalb vom Computer ermittelte Schätzwerte keinesfalls ungeprüft übernommen werden dürfen. So wird beim Cholesterin der Konsensuswert für ein erhöhtes koronares Risiko häufig mit 200 mg/dl (5,17 mmol/l) wesentlich niedriger angegeben als in Abb. 4 gezeigt.

Ausblick

Mit der neuen IFCC-Leitlinie [4] und der darauf basierenden DAkkS-Checkliste [9] rückt die Überprüfung von Referenz­intervallen nicht nur in den Blickpunkt der Labore, sondern verstärkt auch der Akkreditierungsstellen. In Einzelfällen wurde die Akkreditierung bereits wegen fehlender Strategie zur Überprüfung der Herstellerangaben verweigert.
Nach unserer Erfahrung eignen sich die derzeit verfügbaren Werkzeuge wie etwa der oben erwähnte RLE der DGKL oder das in unseren Kursen eingesetzte Programm TNP (Trillium Normalizer Professional) nicht besonders gut für den Routineeinsatz, sondern eher für punktuelle Überprüfungen im Rahmen von Kursen, Studien oder Doktorarbeiten. Der Grund sind die manuellen Bedienungsschritte, die sich bei Hunderten von Computerläufen rasch zu vielen Tagen Arbeit aufaddieren.
Deshalb arbeiten wir derzeit an automatisierten Lösungen mit bidirektionaler LIS-Schnittstelle. Im Idealfall wird diese vom Hersteller so konzipiert, dass die Datenbank-Abfragen automatisch in der Nacht angestoßen werden, wenn die Systemauslastung gering ist, und die Ergebnisse am Morgen vorliegen. Das Referenzintervall-Programm selbst könnte dann als Web-Service angeboten werden, der wie ein externes Analysengerät im Online-Betrieb arbeitet.
Eine solche Lösung ermöglicht auch weitergehende Auswertungen wie etwa die Übermittlung von kontinuierlichen Farbwerten für pathologische Resultate (Abb. 5). 

Wir haben dafür 2017 das zlog-Verfahren entwickelt, das die Abweichung der Messwerte vom Referenz­intervall auf einer logarithmischen Skala in Vielfachen der biologischen Standardabweichung ausdrückt [10]. Aus diesem Wert lässt sich ein intuitiver Farbcode errechnen, der den herkömmlichen kryptischen Darstellungen (z. B. +/-) klar überlegen ist. Die zugrundeliegenden zlog-Werte müssen dabei gar nicht dargestellt werden; es genügt, die Zahlenfelder in der Ausgabe (Bildschirm, PDF, Excel usw.) farbig zu hinterlegen.
Diese Darstellung erlaubt eine intuitive Interpretation jedes Laborresultats unabhängig von Alter und Geschlecht der Patienten sowie Methode und Einheit. Damit leistet die datengetriebene Referenzintervall-Ermittlung und Labordatenstandardisierung nicht zuletzt auch einen wesentlichen Beitrag zur Patientensicherheit. 

Autoren
Prof. Dr. Georg Hoffmann
Herausgeber
Prof. Dr. Frank Klawonn, HZI Braunschweig
Prof. Dr. Stefan Holdenrieder
Deutsches Herzzentrum München
Im Kontext
Aus der Rubrik