Die Evidenz-Sprechstunde

Kein Unterschied – oder wirklich gleich?

Halle - 06.03.2017, 15:50 Uhr

Nicht langsamer oder tatsächlicher schneller? Beim Sport gibt es das Zielfoto, bei Studien sind kleine Unterschiede schwerer rauszuarbeiten. (Foto: picture alliance / AP Photo)

Nicht langsamer oder tatsächlicher schneller? Beim Sport gibt es das Zielfoto, bei Studien sind kleine Unterschiede schwerer rauszuarbeiten. (Foto: picture alliance / AP Photo)


Nicht selten enden klinische Studien mit dem Ergebnis, dass sich kein Unterschied zwischen der Behandlungs- und der Kontrollgruppe feststellen lässt. Aber sind die beiden Therapieoptionen dann wirklich gleich wirksam?

„Das pflanzliche Mittel reduzierte die Schmerzen ähnlich stark wie ein NSAR“ - so oder so ähnlich liest man es immer wieder in Werbebroschüren, die entsprechende Studien zitieren. Auf den ersten Blick sieht das nach einer positiven Nachricht aus. Bedeutet es doch, dass die beiden Mittel eine vergleichbare Wirksamkeit haben – oder doch nicht? Wie so häufig lohnt auch hier ein zweiter Blick: Wie war die Studie eigentlich genau konzipiert?

Grundsätzlich gelten die gleichen Anforderungen wie bei allen anderen Behauptungen zur therapeutischen Wirksamkeit: Für solide Aussagen brauchen wir eine randomisierte kontrollierte Studie mit guter methodischer Qualität. Dann ist aber auch eine kritische Bewertung der Vergleichsmedikation nötig: Ist sie richtig, für die Frage nach der Wirksamkeit also ausreichend hoch dosiert? Ansonsten wäre es sehr einfach, die gleiche Wirksamkeit wie ein unterdosiertes Arzneimittel nachzuweisen. Und ist es auch belegt, dass die Vergleichstherapie tatsächlich wirksamer ist als Placebo? Wenn nicht, läge die Hürde für Gleichwertigkeit ebenfalls sehr niedrig.  

Statistische Fallstricke

Hinzu kommen auch die Feinheiten der Statistik: Häufig soll in Studien nachgewiesen werden, dass ein bestimmtes, häufig neues Arzneimittel besser wirkt ein anderes. Da Studien immer nur eine Stichprobe sind, spielen bei der Abschätzung des „wahren Wertes“ auch zufällige Einflüsse eine Rolle. Deshalb werden in der Regel mit den erhobenen Daten statistische Tests durchgeführt. Auf dieser Basis soll dann entschieden werden, ob das neue Arzneimittel dem anderen überlegen ist. Eine entsprechende Studie nennt man deshalb auch „Überlegenheitsstudie“ (auf englisch: superiority trial).

Anhand von Vorerfahrungen aus anderen Studien wird dann im Idealfall die nötige Fallzahl an Patienten berechnet, die für einen statistischen Nachweis der Überlegenheit notwendig sind. Bei dieser Berechnung spielen unter anderem auch der vermutliche Unterschied zwischen den Therapieeffekten der beiden untersuchten Arzneimittel und die Streuung der Therapieeffekte zwischen den Patienten eine Rolle. Dabei gilt: Je kleiner der Unterschied zwischen den Therapien ist und je mehr die Werte streuen, desto mehr Teilnehmer werden benötigt.

Was ist die Ursache?

Wenn die statistischen Tests jetzt zu dem Ergebnis kommen, dass sich kein Unterschied zwischen den beiden untersuchten Arzneimittel nachweisen lässt, kann das mehrere Gründe haben: Natürlich kann es sein, dass die beiden Mittel tatsächlich gleichwertig in der Wirksamkeit sind. Das gleiche statistische Ergebnis kann aber auch dadurch entstehen, dass der Unterschied zwischen den Therapieeffekten doch kleiner ist als angenommen und/oder die Ergebnisse zwischen den Patienten mehr streuen (aus welchem Grund auch immer). Das Ergebnis des statistischen Tests gibt dann keine Sicherheit, dass das neue Mittel in Wirklichkeit nicht doch weniger wirksam ist als das Vergleichspräparat. Die Umstände der Studie haben dann nur dazu geführt, dass der in Wirklichkeit vorhandene Unterschied nur nicht nachgewiesen werden konnte.

Welche der beiden möglichen Ursachen für das Ergebnis zutrifft, lässt sich häufig nicht sicher beantworten. Diese Problematik wird dann noch verschärft, wenn für die Studie überhaupt gar keine Fallzahl-Berechnung durchgeführt wurde und man im Vorfeld nicht sicher sein kann, dass vorhandene Unterschiede überhaupt gefunden würden. 

Besser: Nicht-Unterlegenheit

Für einen zuverlässigen Nachweis der Gleichwertigkeit braucht man deshalb in der Regel eine so genannte „Nicht-Unterlegenheits-Studie“ (non-inferiority trial). Eine solche Studie ist explizit dafür ausgelegt nachzuweisen, dass ein neues Arzneimittel zumindest nicht schlechter wirkt als die Vergleichsmedikation.

Die beschriebenen Probleme bei den Überlegenheitsstudien lassen leicht nachvollziehen, dass für Nicht-Unterlegenheitsstudien meist mehr Teilnehmer erforderlich sind. Denn nur dann kann in der Studie ein vorhandender Unterschied auch tatsächlich erkannt werden. Vor Studienbeginn wird außerdem eine Nicht-Unterlegenheits-Grenze definiert: Sie beschreibt den maximalen Unterschied zwischen dem neuen Arzneimittel und der Standardtherapie, den man für eine therapeutische Gleichwertigkeit noch akzeptieren würde. In der Auswertung der Studie wird die Nicht-Unterlegenheit dann auf der Basis der entsprechenden Konfidenzintervalle (Vertrauensbereiche) beurteilt.

Allerdings ist bei dieser Auswertung auch noch der Umgang mit möglichen Studienabbrechern zu beachten: Bei einer Überlegenheitsstudie sollten die Patienten in der Gruppe ausgewertet werden, der sie ursprünglich zugeordnet waren („intention-to-treat-Analyse“). Abweichungen vom Studienprotokoll verwischen allerdings mögliche Unterschiede zwischen den Gruppen. Bei einer Überlegenheitsstudie ist die intention-to-treat-Analyse deshalb in der Regel die konservativere Auswertestrategie. Bei einer Nicht-Unterlegenheits-Studie hat das allerdings genau den gegenteiligen Effekt. Deshalb ist zusätzlich eine per-protocol-Analyse sinnvoll, bei der nur die Teilnehmer ausgewertet werden, die sich an die Regeln der Studie gehalten haben. Im Idealfall sollten die beiden Analysen nicht zu unterschiedlichen Ergebnissen im Hinblick auf Nicht-Unterlegenheit führen.

Mal konkret

Was heißt das jetzt genau? Dazu ein Beispiel: Bei einer Nicht-Unterlegenheitsstudie wird das Ansprechen auf eine neue Behandlung mit einem neuen HIV-Mittel mit der bisherigen Standardtherapie verglichen. Als Nicht-Unterlegenheitsgrenze haben die Forscher vorab eine Differenz von 12 Prozentpunkten festgelegt. Bei der Auswertung betrug die Differenz in der intention-to-treat-Auswertung 2,0 Prozentpunkte (95%-Konfidenzintervall -0,7%-4,7%), in der per-protocol-Auswertung 0,8 Prozentpunkte (95%-Konfidenzintervall -1·0%-2,5%). Da sich in beiden Fällen das Konfidenzintervall vollständig unterhalb der Nicht-Unterlegenheitsgrenze befindet, kann man von Nicht-Unterlegenheit ausgehen.



Iris Hinneburg, freie Medizinjournalistin und Pharmazeutin
redaktion@daz.online


Diesen Artikel teilen:


Das könnte Sie auch interessieren

Vareniclin vs. Cytisin – was verspricht mehr Erfolg beim Tabakentzug?

Endlich rauchfrei dank …

Bevacizumab und Ranibizumab in der Therapie der AMD

Kein Unterschied

Keine erhöhte Sterblichkeit unter Spiriva® Respimat®

Entwarnung

Ein Gastkommentar zur Thromboembolieprophylaxe mit NOAK bei Krebspatienten

„Es bleiben zu viele Fragen offen!“

GLP-1-Rezeptoragonisten Dulaglutid und Liraglutid im Vergleich

Einmal wöchentlich versus einmal täglich

1 Kommentar

Und unser Problem bleibt ungelöst

von Reinhard Rodiger am 06.03.2017 um 18:47 Uhr

Statistik ist das eine und pragmatisch helfen ist das andere.Ärzte dürfen das nicht mehr und wir müssen es.
Der fachlich gewärmte Händedruck reicht in der Praxis nicht.
Für Sie gibt es nichts Begründetes mehr.Das ist eine menschliche Bankrotterklärung.Nur ,die Situation ist häufig.

Jeder weiss, dass Vertrauen hilft, warum wird das nicht mehr
eingesetzt bzw. der digitalen Meinungsbildung ausgeliefert ?

» Auf diesen Kommentar antworten | 0 Antworten

Das Kommentieren ist aktuell nicht möglich.