p-Wert und statistische Signifikanz

Der p-Wert gehört in klinischen Studien zu den am häufigsten berichteten statistischen Kenngrößen. Er gibt an, mit welcher Wahrscheinlichkeit ein beobachtetes Studienergebnis rein zufällig entstanden sein könnte. In der Medizin spricht man meist von einem statistisch signifikanten Ergebnis, wenn diese Wahrscheinlichkeit unter 5 % liegt. Die medizinische Aussagekraft des p-Werts wird oft überschätzt, und das „Schielen auf den p-Wert“ kann zu gravierenden Fehlinterpretationen führen.

Schlüsselwörter: p-Wert, Nullhypothese, Signifikanz, t-Test, p-Hacking

Es gibt medizinische Zeitschriften, bei denen – etwas übertrieben formuliert – fast jede auf Daten basierende Aussage durch einen p-Wert gerechtfertigt werden muss, wodurch der p-Wert als eines der wichtigsten Konzepte in der Statistik geadelt wird.
Auf der anderen Seite gibt es – insbesondere seitens der Bayes’schen Schule – scharfe und grundsätzliche Kritik an der Verwendung von p-Werten.
Der p-Wert soll hier weder heiliggesprochen noch verteufelt werden. Nein, es geht um das Verständnis der Hintergründe, um p-Werte beurteilen und kritisch hinterfragen zu können.

Definitionen

p-Werte dienen in der Medizin der statistischen Überprüfung einer medizinischen Vermutung wie beispielsweise: Therapie A ist wirksamer als Therapie B. Um solch eine Vermutung zu erhärten, führt man typischerweise eine klinische Studie durch, bei der ein Teil der Patient:innen Therapie A, der andere Therapie B erhält. Man definiert nun ein messbares Kriterium für den Outcome und unterzieht die Ergebnisse für die beiden Gruppen einem Hypothesentest.
Der Test liefert die Wahrscheinlichkeit für die Annahme, dass etwaige Unterschiede zwischen den beiden Gruppen durch puren Zufall erklärbar sind. Diese skeptische Annahme heißt Nullhypothese. Die Wahrscheinlichkeit wird mit dem Buchstaben p (für probability) bezeichnet und ist eine Zahl zwischen 0 und 1 oder zwischen 0 % und 100 %. Je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass die Nullhypothese zutrifft, und desto eher darf man folglich annehmen, dass der beobachtete Unterschied im Outcome auf einem positiven Effekt von Therapie A beruht.
Es ist in der Medizin und anderen biologischen Wissenschaften üblich, die Nullhypothese bei einem p-Wert unter 0,05 (5 %) abzulehnen und das Studienergebnis für „statistisch signifikant“ zu erklären. Bei der Deutung des p-Werts muss man sich immer vor Augen halten, dass statistische Signifikanz nichts über die medizinische Bedeutung des Studienergebnisses aussagt. Der p-Wert gibt – wie gesagt – nur eine Wahrscheinlichkeit dafür an, dass etwaige Unterschiede im Outcome der beiden Gruppen durch Zufall zu erklären sind.

Ein Beispiel

Als klinisches Beispiel für solch einen statistischen Hypothesentest betrachten wir die Überprüfung der Wirksamkeit einer neuen Kombinationstherapie im Vergleich zur klassischen Prostatektomie. Wir erwarten als Outcome-Kriterium, dass etwa 30 % der nur chirurgisch behandelten Männer innerhalb von fünf Jahren ein „biochemisches Rezidiv“, also einen Wiederanstieg des Prostata-spezifischen Antigens (PSA), aufweisen [1].
Es wird nun eine Therapiestudie mit 200 Patienten durchgeführt, die dem Vergleichskollektiv bezüglich Alter und Tumorstadium ähnlich sind. Damit sich die neue Therapie als überlegen erweisen kann, müssten unter diesen 200 Patienten also weniger als 60 (30 %) innerhalb von fünf Jahren einen PSA-Anstieg aufweisen.
Was aber heißt „weniger“? Als Nachweis der besseren Wirksamkeit der neuen Therapie wird es sicher nicht genügen, wenn 59 statt 60 Personen ein Rezidiv aufweisen. Der Unterschied von nur einem Fall dürfte innerhalb der zufälligen Schwankungsbreite liegen. Theoretisch könnte es auch passieren, dass rein zufällig keiner der Erkrankten ein Rezidiv aufweist. Die Wahrscheinlichkeit für einen solchen Zufall ist jedoch extrem klein. Sie liegt bei ca. 10^–29 %.
Nehmen wir nun als realistisches Szenario an, dass unter der neuen Therapie 50 Personen (also 25 %) ein Rezidiv erlitten. Wie wahrscheinlich wäre es, dass höchstens 50 (statt 60) Patienten rein zufällig einen PSA-Anstieg aufweisen, obwohl die neue Therapie der Prostatektomie unter der Nullhypothese keinerlei Vorteil bringt?
Die Wahrscheinlichkeit p, dass die Rezidivrate von 25 % durch puren Zufall beobachtet wurde, lässt sich mit der Binomialverteilung* ausrechnen: Sie liegt bei ca. 7 %. Dieser p-Wert besagt: Obwohl bei der neuen Therapie eine Rezidivrate von nur 25 % beobachtet wurde, besteht eine Wahrscheinlichkeit von immerhin ca. 7 %, dass sich der Unterschied rein zufällig ergeben hat, sprich: dass die neue Therapie vermutlich keinen Vorteil bringt.
Tab. 1 zeigt, dass der p-Wert abnimmt, je weiter sich die beobachtete Rezidivrate vom Vergleichswert 30 % entfernt. Ab einem p-Wert unter 0,05 (hier 48 Rezidive) spricht man von einem „statistisch signifikanten“ Effekt, bei p-Werten unter 0,01 (hier 47 Rezidive) nennt man den Effekt in der Medizin gern „hoch signifikant“.

Tab. 1 p-Werte für Rezidivraten bei einer neuartigen Krebstherapie. Bei der Vergleichstherapie werden 30 % Rezidive erwartet [Quelle: Autoren].

Fallzahl	Rezidive absolut	Rezidive in %	p-Wert
200	49	24.5	0,05 (5 %)
200	48	24	0,036 (3,6 %)
200	47	23,5	0,011 (1,1 %)
200	40	20	< 0,001 (< 1 ‰)

Interpretation

Nehmen wir an, dass in einem Studienzentrum 50 Rezidive beobachtet werden (p > 0,05), in einem anderen dagegen nur 47 (p < 0,01). Das erste Ergebnis ist nicht signifikant, das zweite dagegen schon. Trotzdem wird wohl angesichts der kleinen absoluten Unterschiede niemand ernsthaft behaupten, dass die erste Studie wertlos sei, während die zweite die Überlegenheit der neuen Therapie klar belegt. 5 % und 1 % sind keine von der Statistik vorgegebenen Schwellen, sondern arbiträr gewählte Zahlen, die sich für die Interpretation von Studienergebnissen als praktikabel erwiesen haben. Der p-Wert entbindet aber nicht von der Verantwortung, nach medizinischen, organisatorischen oder wirtschaftlichen Kriterien über die Einführung der neuen Kombinationstherapie zu entscheiden – und nicht sklavisch auf den p-Wert zu schielen.
Was auch häufig übersehen wird, ist der enorme Einfluss der Fallzahl auf den p-Wert. Abb. 1 zeigt die steile Abnahme der p-Werte in Abhängigkeit von der Fallzahl im Bereich von n = 50 bis n = 500, wenn die neue Therapie konstant eine Rezidivrate von 24 % erzielt (verglichen mit der Erwartung von 30 % unter der Nullhypothese). Obwohl der Therapieeffekt in allen drei Fällen identisch ist, würde sich bei einem n von 100 ein p-Wert von 11 % errechnen („nicht signifikant“); bei n = 300 erhält man p = 1,2 % („signifikant“) und bei n = 500 sogar p = 0,17 % („hoch signifikant“).
Es ist ein Kennzeichen unseres „Big Data“-Zeitalters, dass immer mehr Studien mit sehr großen Fallzahlen publiziert werden [2]. Aus Abb. 1 ist leicht abzulesen, dass der p-Wert mit steigendem n unausweichlich gegen null geht, sodass bei Tausenden von Daten, wie man sie z. B. aus großen Registern der WHO herausfiltern kann, jeder noch so geringe Unterschied statistisch „hoch signifikant“ wird. Für die Beurteilung der medizinischen Relevanz eines solchen Ergebnisses müssen andere Kriterien, wie z. B. das zuschreibbare Risiko (attributable risk), das Chancenverhältnis (odds ratio) oder die Anzahl der notwendigen Behandlungen (number needed to treat), angewandt werden. Diese Begriffe werden in einem späteren Beitrag unserer Statistikserie besprochen.

Abb. 1 p-Werte in Abhängigkeit von der Fallzahl n. Die waagrechte gestrichelte Linie gibt die in der Medizin gebräuchliche Signifikanzschwelle von p = 0,05 an. Die starken Schwankungen im linken Teil sind durch die erforderlichen Rundungen der 24%-Rate auf ganze Zahlen bedingt [Quelle: Autoren].

Der t-Test

Der wohl populärste Hypothesentest ist der t-Test, mit dem man quantitative Unterschiede zwischen Mittelwerten prüft [3]. Dabei handelt es sich eigentlich um eine Gruppe verschiedener statistischer Hypothesentests, je nachdem, ob man beispielsweise einen einzelnen Mittelwert auf Übereinstimmung mit der Erwartung prüfen möchte (Einstichproben-t-Test), zwei Mittelwerte vergleicht (Zweiproben-t-Test) oder Differenzen zwischen zwei an derselben Stichprobe erhobenen Werten beurteilen will (gepaarter t-Test).
Auch hierfür wollen wir ein klinisches Beispiel betrachten. Abb. 2 zeigt die Ergebnisse einer Studie an jeweils 30 Männern mit vergrößerter Prostata, bei denen das Prostata-spezifische Antigen (PSA) gemessen wurde.

Abb. 2 PSA-Werte (ng/ml) bei Männern ohne familiäre Belastung (Gruppe A, grün) bzw. bei Männern mit familiärer Belastung (Gruppe B, blau) für ein Prostatakarzinom [Quelle: Autoren].

Es soll untersucht werden, ob sich eine familiäre Belastung (Vater oder Bruder mit Prostatakarzinom) auf den mittleren PSA-Spiegel auswirkt. Gruppe A ist das Vergleichskollektiv ohne familiäre Belastung.
Es ist wichtig, die Nullhypothese richtig zu formulieren. Falsch wäre es nämlich zu sagen: „Es besteht kein Unterschied zwischen den PSA-Werten in den beiden Gruppen.“ Der zu prüfende Unterschied muss auf eine einzige Kennzahl, also z. B. die Differenz der Mittelwerte von Gruppe A und B, heruntergebrochen werden. Obwohl diese Kennzahl nur 0,29 ng/ml (4,77 minus 4,48) beträgt, ist die Erhöhung des Mittelwerts in Gruppe B im einseitigen Zweiproben-t-Test hoch signifikant (p < 1 %).
Auch hier sind bei der Interpretation verschiedene statistische Vorbedingungen zu berücksichtigen. Der t-Tests geht von der Annahme aus, dass die beobachteten Daten durch eine Normalverteilung modelliert werden können. Da aber viele Laborwerte – darunter auch die meisten Tumormarker – keine symmetrische Verteilung nach Art einer Glockenkurve zeigen, sondern rechtsschief verteilt sind (also rechts weniger steil als links), empfiehlt es sich, solche Messwerte zu logarithmieren, um sie der Normalverteilung anzunähern (Abb. 3).

Abb. 3 Die Verteilung von Tumormarkerspiegeln ist häufig rechtsschief (links). Für die Anwendung des t-Tests empfiehlt es sich hier, die Messwerte zu logarithmieren, um eine annähernd symmetrische Verteilung zu erzielen (rechts), die einer Normalverteilung (blaue Linie) nahekommt [Quelle: Autoren].

Eine weitere Voraussetzung für den Vergleich von zwei Mittelwerten mit dem klassischen t-Test ist, dass die Standardabweichungen der beiden Gruppen (annähernd) gleich sind. Die meisten Programme, die einen Zweistichproben-t-Test anbieten, verwenden einen Welch-t-Test, bei dem die Standardabweichungen in den beiden Gruppen unterschiedlich sein dürfen. Dabei werden die p-Werte zwar nicht exakt berechnet, sondern nur näherungsweise geschätzt. Dennoch ist der p-Wert beim Welch-t-Test fast exakt, sofern die Daten tatsächlich annähernd symmetrisch verteilt sind und die Stichprobe nicht zu klein ist.

Bei starken Abweichungen von der Normalverteilungsannahme erhält man selbst beim (per se exakten) Einstichproben-t-Test völlig falsche p-Werte, wenn die Fallzahl gering ist. Wenn p-Werte berechnet werden, obwohl Voraussetzungen des entsprechenden Tests – hier die Normalverteilungsannahme – nicht erfüllt sind, spricht man von „nominalen p-Werten“. Abb. 4 illustriert anhand eines konstruierten Beispiels den Fehler, der bei der Anwendung eines Einstichproben-t-Tests auf nicht normalverteilte Daten entsteht (Abb. 3 links).

Abb. 4 Nominale p-Werte können zu falschen statistischen Schlussfolgerungen führen. So müsste der Mittelwert bei der Analyse normalverteilter Daten theoretisch in 5 % aller Fälle fälschlich signifikant von der Erwartung abweichen (grüne Linie), wenn die Nullhypothese („keine systematische Abweichung“) gültig ist. Wird dieser Test irrtümlich auf nicht normalverteilte Daten angewandt, so erhält man im hier gezeigten Beispiel abhängig von der Fallzahl deutlich mehr fälschlich signifikante Abweichungen (blaue Linie). Die korrekte Ablehnungsrate würde nur durch eine deutliche Absenkung des Signifikanzniveaus erreicht (rote Linie), beispielsweise auf p < 2 % bei einem n von 100 [Quelle: Autoren].

p-Hacking

Das sogenannte „p-Hacking“ dient dazu, kleine p-Werte zu erzeugen. Es gibt viele Möglichkeiten, Studienergebnisse so zu beeinflussen, dass sie „signifikant werden“. Dies kann unabsichtlich geschehen, wird aber manchmal auch manipulativ eingesetzt, beispielsweise, indem man so lange unterschiedliche Testverfahren anwendet, bis sich ein p-Wert unter 5 % ergibt, etwa durch Vergleich der Mittelwerte mit dem t-Test, der Mediane mit dem Wilcoxon-Test, der Streuungen mit dem F-Test, der Verteilungsform mit dem Kolmogorow-Smirnow-Test usw.
Eine andere Art des p-Hackings besteht darin, eine genügende Anzahl an Hypothesen zu testen und nur das Ergebnis zu berichten, bei dem sich ein kleiner p-Wert ergeben hat. Dieser Effekt tritt z. B. auf, wenn man in einer Therapiestudie nicht nur – wie eingangs beschrieben – ein Medikament A gegen die Standardtherapie B vergleicht, sondern zahlreiche Untergruppen mit kleinen Therapievarianten bildet. In diesem Fall wird sich bei etwa jeder zwanzigsten Gruppe auch dann ein p-Wert unter 5 % ergeben, wenn die Nullhypothese gilt, dass die getesteten Varianten keinen Einfluss auf den Outcome haben.
Man widerspricht bei diesem Vorgehen der Philosophie der Hypothesentests, denn man testet nicht gezielt eine oder mehrere sinnvolle Hypothesen, sondern schießt sozusagen mit der Schrotflinte auf Hypothesen und trifft zufällig irgend-etwas. Unbeabsichtigt kann dieses Phänomen in der Omics-Forschung auftreten, wo beispielsweise die Effekte von Tausenden genomischer oder proteomischer Varianten auf die Entstehung von Krebs untersucht werden. Hier ist unvermeidlich, dass hin und wieder auch dann ein p-Wert unter 5 % erhalten wird, wenn die Nullhypothese gilt. Man sollte in diesem Fall eine Korrektur für multiples Testen wie z. B. die Bonferroni-Korrektur einbeziehen, die die ursprünglichen p-Werte – die man in diesem Fall auch als nominal bezeichnet – mit steigender Anzahl durchgeführter Tests vergrößert.
Bei einer weiteren Technik erhebt man zunächst ungezielt Daten in möglichst großer Zahl und schaut, ob man irgendwo Unterschiede – etwa der Mittelwerte zwischen zwei Gruppen – entdeckt. Daraus generiert man dann eine Hypothese, die man mit dem erfolgversprechendsten Test überprüft. Grundsätzlich kann man durchaus Hypothesen aus Daten generieren, muss diese dann aber anhand unabhängig erhobener Daten testen. Dieses Verfahren wird standardmäßig beim sogenannten maschinellen oder statistischen Lernen eingesetzt, wo man immer eine Trainings- und eine Testgruppe bildet.
p-Hacking liegt schließlich auch dann vor, wenn man Daten, die nicht zu einem gewünschten Ergebnis passen, „wegdiskutiert“. Das heißt nicht, dass man offensichtlich fehlerhafte Daten nicht verwerfen dürfte. Jedoch muss man dafür eine gute Begründung haben und darf nicht einfach Werte als Ausreißer deklarieren, weil sie nicht unbedingt zu den anderen Daten passen.

Autoren

Prof. Dr. med. Georg Hoffmann

georg.hoffmann[at]trillium[dot]de

Prof. Dr. Frank Klawonn

Braunschweig

Frank.Klawonn[at]helmholtz-hzi[dot]de