Der p-Wert ist ein statistisches Maß aus der Interferenz Statistik welches (zu) oft herangezogen wird um zu zeigen ob eine Maßnahme effektiv ist oder nicht. Doch ich möchte mit dem Beitrag vermitteln inwiefern dieser Wert missinterpretiert und leider für eigene Zwecke missbraucht wird.
WICHTIG: Aufgrund der Komplexität des Themas ist es schwer dem gerecht zu werden mit kurzgefassten Blogpost. Weswegen ich darauf aufmerksam machen will, dass du kein Experte wirst rein durch das Lesen meiner Blogs zu dem Thema. Dennoch können durch diese Post einige Grundbegriffe bekannt werden und als Einleitung für eine weitere Vertiefung dienen. Wenn du also besser im lesen und interpretieren von Studien werden möchtest, rate ich dir entweder ein Studium zu absolvieren oder spezielle Fortbildungen in dem Bereich zu tun.
1. Basics: Hypothesen testen
Bevor wir genauer auf den p-Wert eingehen müssen ein paar Grundlagen erklärt werden um die nachfolgenden Erklärungen besser verstehen zu können.
In der Wissenschaft wollen wir die Welt durch Studien besser verstehen. Aufgrund der Tatsache, dass es zu aufwendig wäre die gesamte Welt auf ein bestimmtes Phänomen zu testen sucht man sich eine bestimmte Anzahl an Menschen aus der Gesamtbevölkerung raus die sozusagen repräsentativ für diese sein soll.
Nun wollen wir eine Therapiemaßnahme an den Probanden, die die Gesamtbevölkerung repräsentieren sollen, durchführen:
1. Beispiel:
Die Forscher stellten die Hypothese auf, dass eine einzige Interventionssitzung (Mobilisierung der Weichteile die Außenrotation) bei Patienten mit eingeschränkter Schulterbeweglichkeit verbessern würde.
Versuchs- und Kontrollgruppen wurden nach dem Zufallsprinzip gebildet. Der Bewegungsumfang (ROM) wurde gemessen und die Verbesserung von der Voruntersuchung bis zur Nachuntersuchung wurde für jeden Probanden berechnet.
Die Forscher fanden heraus, dass die durchschnittliche Verbesserung in der Außenrotation bei 16,4 Grad in der Behandlungsgruppe und 1 Grad in der Kontrollgruppe war.
2. Interpretation
Auf Basis dieser Ergebnis, sollte der Forscher zu dem Schluss kommen, dass die Forschungshypothese bestätigt wurde, also dass die Therapie wirksam ist?
Es ist immer davon auszugehen, dass es Unterschiede zwischen den Gruppen gibt, selbst wenn eine Behandlung überhaupt nicht wirksam ist. Daher brauchen wir einen Mechanismus, mit dem wir entscheiden können, ob ein beobachteter Unterschied oder Effekt zufällig ist oder nicht. Dies geschieht durch den Prozess der Hypothesenprüfung.
2. Basics: Hypothesenprüfung
Am Anfang jeder Studie werden Hypothesen aufgestellt:
Null Hypothese (H0): Der beobachtbare Unterschied zwischen den Gruppen ist nur Zufall. Es gibt keinen bedeutsamen Unterschied zwischen der Interventionsgruppe und der Kontrollgruppe. Bei Patienten mit eingeschränkter Schulterbeweglichkeit gibt es keinen Unterschied in der Veränderung der Außenrotation zwischen denjenigen, die eine Mobilisierung erhalten und denjenigen, die keine Mobilisierung erhalten.
Alternative Hypothese (H1): Der beobachtbare Unterschied zwischen den Gruppen ist zu groß als dass nur durch Zufall aufgetreten ist. Es gibt einen bedeutsamen Unterschied zwischen der Interventionsgruppe und der Kontrollgruppe. Bei Patienten mit eingeschränkter Schulterbeweglichkeit gibt es einen Unterschied in der Veränderung der Außenrotation zwischen denjenigen, die eine Mobilisierung erhalten und denjenigen, die keine Mobilisierung erhalten.
In den Studien geht es darum H0 zu widerlegen. Aber wichtig: Kein einziges Experiment kann beweisen, dass eine Nullhypothese wahr ist - man müsste die gesamte Population testen, um zu beweisen, dass eine Behandlung keine Wirkung hat, und dabei erfolglos bleiben. Wir können jedoch die Nullhypothese durch einen einzigen Versuch widerlegen, der zeigt, dass die Behandlung wirksam ist. Der Zweck der statistischen Prüfung der Hypothese besteht also darin, festzustellen, ob H0 falsch ist oder nicht. Es herrscht oft Verwirrung darüber, wie das Ergebnis einer statistischen Entscheidung auszudrücken ist. Wir können nur sagen, dass wir die Nullhypothese ablehnen oder nicht ablehnen.
3. Basics: Fehler in der Hypothesenprüfung
Hypothesentests führen immer zu einer von zwei Entscheidungen: entweder die Nullhypothese verwerfen oder nicht verwerfen. Durch die Ablehnung der Nullhypothese kommt der Forscher zu dem Schluss, dass es unwahrscheinlich ist, dass der Zufall allein für die beobachteten Unterschiede verantwortlich ist. Dies wird als signifikanter Effekt bezeichnet, der wahrscheinlich nicht auf den Zufall zurückzuführen ist. Wenn die Nullhypothese nicht abgelehnt wird, kommt der Forscher zu dem Schluss, dass der beobachtete Unterschied wahrscheinlich zufällig ist und nicht signifikant ist.
Es kann jedoch auch sein, dass die Forscher sich irren und Fehler machen:
Fehler vom Typ I - Fälschlicherweise einen Unterschied feststellen. H0 verwerfen obwohl, dass falsch ist. Wir sagen, dass die Therapie einen signifikanten Unterschied hat obwohl kein signifikanter Unterschied vorhanden ist.
Fehler vom Typ II - Fälschlicherweise keinen Unterschied feststellen. H0 nicht verwerfen obwohl wir es hätten tun sollen. Wir sagen, dass die Therapie keinen signifikanten Unterschied obwohl ein signifikanter Unterschied vorhanden ist.
Um es mit dem Gerichtssaal zu vergleichen: Typ-I-Fehler bedeutet, den
Angeklagten für schuldig zu sprechen, obwohl er eigentlich unschuldig ist, und Typ-II-Fehler
ist, ihn für nicht schuldig zu halten, obwohl er eigentlich schuldig ist.
Wir können den Irrtum vom Typ I auch als falsch-positiv und
Typ-II-Fehler als falsch-negativen bezeichnen.
Wenn du es bis hier her geschafft hast, dann erstmal Respekt, denn dies ist nicht so ganz einfach zu verstehen geschweige denn in einen interessanten Post zu verpacken. Doch nun haben wir alles was wir brauchen um zu verstehen wie wir den p-Wert nun interpretieren sollen.
Der p-Wert ist nämlich wichtig um einen Typ I Fehler zu vermeiden.
4. Typ I Fehler und der p-Wert
Da wir wissen, dass beobachtete Unterschiede auf Zufall beruhen können, könnten wir uns fragen, wie wir jemals eine Entscheidung bezüglich der Nullhypothese treffen können, wenn wir nie sicher sein können, ob sie wahr oder falsch ist. In der Tat wird es in diesem Prozess immer eine gewisse Unsicherheit geben. Wir müssen bereit sein, ein gewisses Risiko einzugehen, einen Fehler zu machen, wenn wir die Nullhypothese ablehnen, obwohl sie wahr ist. Wir müssen in der Lage sein, ein Kriterium für dieses Risiko festzulegen, eine Trennlinie, die es uns erlaubt zu sagen, dass ein Fehler bei der Ablehnung von H0 (ein Fehler vom Typ I) "unwahrscheinlich" ist. Dabei kommt das Signifikanzniveau und der p-Wert ins Spiel.
Das p steht für "Probability" also zu Deutsch Wahrscheinlichkeit. Stellen wir uns vor, dass wir in der oben genannten Studie ein p-Wert von 0,18 herausgekommen ist. Das bedeutet, dass es eine 18%ige Wahrscheinlichkeit gibt, dass der Unterschied zwischen den Gruppen allein durch Zufall entstanden ist. Wenn wir uns also entscheiden, H0 zu verwerfen und zu dem Schluss kommen, dass sich die getesteten Gruppen voneinander unterscheiden, haben wir eine 18%ige Chance, falsch zu liegen.
In der Wissenschaft hat man sich auf einen p-Wert von 0,05 also auf eine 5%ige Wahrscheinlichkeit falsch zu liegen, geeinigt.
Einige werden nun sicherlich fragen: Wenn wir uns unserer Ergebnisse wirklich sicher sein wollen, warum setzen wir dann nicht einfach einen sehr niedrigen p-Wert wie 0,0001 an? Das würde sicherlich die Strenge zur Vermeidung eines Fehlers vom Typ I erhöhen, aber praktisch würde es auch das Auffinden signifikanter Unterschiede sehr schwierig machen und das Risiko eines Fehlers vom Typ II erhöhen. Grundsätzlich ist die Verwendung von p= 0,05 in der Regel angemessen, um sowohl Fehler vom Typ I als auch vom Typ II auszugleichen.
5. Interpretation des p-Wertes
Einfach gesagt, zeigt uns der p-Wert nur ob der Unterschied zwischen den Gruppen durch Zufall entstanden sind oder nicht. Ein signifikanter p-Wert sagt uns also, dass ein relativ geringes Risiko besteht, dass dieser Unterschied zwischen den Gruppen nur durch Zufall entstanden ist. Im Umkehrschluss, sagt er uns nicht wie effektiv die Therapie war. Der Grad der Signifikanz (also je kleiner der p-Wert) bedeutet nicht, dass die Therapie effektiver war. Es ist nicht ratsam, Begriffe wie "hochsignifikant" oder "signifikanter" zu verwenden, da sie implizieren, dass der Wert von p ein Maß für den Behandlungseffekt ist, was er nicht ist. Hierfür werden Effektstärken benutzt die dafür da sind um zu ermitteln wie groß die Unterschiede sind oder wie stark der Effekt ist. Es kann also sein, dass eine Therapie signifikant aber nicht effektiv ist oder effektiv aber nicht signifikant.
Was ist wenn ein Ergebnis signifikant ist und was ist wenn ein Ergebnis nicht signifikant ist?
Selbst wenn eine Signifikanz erreicht wird, müssen wir überlegen, was die Zahlen bedeuten. Am wichtigsten ist die Größe des Effekts, der angibt, wie effektiv die Ergebnisse sind, nicht die statistische Signifikanz. Wir müssen auch darauf achten, dass wir den p-Wert nicht mit der Größe des Effekts verwechseln. Denk daran, dass der p-Wert dazu da ist die Null Hypothese zu verwerfen oder nicht.
Wir können die p-Werte der einzelnen Studien nicht vergleichen, um zu sagen, dass eine Behandlung besser ist als eine andere. Ein niedriger p-Wert bedeutet nicht, dass der Behandlungseffekt bedeutsamer war oder weist nicht auf einen größeren Effekt hin.
Es ist wichtig, die Größe des Behandlungseffekts zu betrachten (Effektstärke). Effektgrößen die durch beispielsweise Effektstärken ermittelt wurden, können bei der Bewertung des Effekts eine Grundlage für den Vergleich zwischen Studien bieten.
Erfundenes Beispiel zur Erläuterung: Signifikantes Ergebnis aber nicht effektiv
Wir haben eine Therapiemaßnahme angewendet und wollen schauen wie es sich auf die Schmerzintensität der Patienten auswirkt. Dabei zeigt sich, dass in der Interventionsgruppe im Durschnitt die Schmerzintensität um 1 Punkt auf der NRS runtergegangen ist mit einem p-Wert von 0,04. Hier haben wir einen Unterschied zwischen den Gruppen der signifikant ist also womöglich nicht durch Zufall entstanden ist. Diese Veränderung ist womöglich auf die Therapie zurückzuführen. Doch jetzt kann sich jeder die Frage stellen wie effektiv und relevant es ist, wenn der Patient einen Punkt weniger Schmerzen hat.
Erfundenes Beispiel zur Erläuterung: Nicht Signifikantes Ergebnis aber effektiv
Nun gehen wir davon aus, dass wir eine Studie durchführen in dem es darum geht die Schnelligkeit im Sprint bei Hochleistungssportler zu verbessern durch eine bestimmte Maßnahme. Die Interventionsgruppe trainiert mit der Maßnahme die Kontrollgruppe nicht. Nun zeigt sich, dass der Unterschied zwischen den Gruppen 0,5 Sekunden ist. Es zeigt sich, dass der p-Wert nicht signifikant ist. Bedeutet, dies nun dass die Maßnahme nicht effektiv ist? Bei Sprinter können Millisekunden über Sieg oder Niederlage entscheiden. Bei Hochleistungssportler ist es schwierig wahnsinnig große Unterschiede in der Leistung noch zu erreichen. Wenn wir es also hinkriegen durch eine Maßnahme die Sportler um 0,5 Sekunden zu verbessern was vielleicht dazu führen kann, dass sie Gold gewinnen dann ist dies dennoch effektiv. Dies beschreibt den Unterschied zwischen statistischer Signifikanz und klinischer oder praktischer Relevanz.
Was solltest du über den p-Wert wissen:
Ein signifikanter p-Wert sagt uns, dass ein relativ geringes Risiko besteht, dass dieser Unterschied zwischen den Gruppen nur durch Zufall entstanden ist.
Wir können die p-Werte der einzelnen Studien nicht vergleichen, um zu sagen, dass eine Behandlung besser ist als eine andere.
Ein niedriger p-Wert bedeutet nicht, dass der Behandlungseffekt bedeutsamer war oder weist nicht auf einen größeren Effekt hin.
Der p-Wert sagt nichts darüber aus wie effektiv die Therapie ist.
Um die Effektivität der Therapie zu ermitteln benötigen wir andere statistische Methoden wie zum Beispiel die Effektstärke
Bei Fragen einfach bei mir melden. Für weitere Post dieser und auch anderer Art, folge mir einfach auf Instagram auf physio_hero oder auf movfact.
Comments