Klinische Studien

Goldstandard RCT

Klinische Studien und ihre Bewertung, Teil 2

Von Monika Dircks und Mirjam Gnadt | Im ersten Teil dieser Serie wurde dargelegt, warum randomisierte kontrollierte Studien (RCT) als Goldstandard für die Wirksamkeitsprüfung von Arzneimitteln gelten. Im nächsten Schritt geht es darum, die Qualität und die Anwendbarkeit der Ergebnisse solcher Studien beurteilen zu können. Einige wichtige Aspekte werden im folgenden Beitrag vorgestellt. Dabei wird mehrmals auf das Consort-Statement („Consolidated Standards of Reporting Trials“) verwiesen. Dieser Leitfaden gibt den Autoren ausführliche Empfehlungen, wie sie Publikationen über randomisierte kontrollierte Studien verfassen sollten [1].

Goldstandard RCT

Beurteilungskriterien rund um die Probanden

Ist der zu behandelnde Patient mit den Probanden in der Studie vergleichbar? Diese Frage betrifft die Übertragbarkeit von Studienergebnissen auf die klinische Anwendbarkeit in der Praxis (auch externe Validität genannt). Wenn die untersuchten Probanden sehr große Unterschiede zum behandelten Patienten aufweisen, ist fraglich, ob der Arzneistoff die gleiche Wirkung zeigt. Anschauen sollte man sich besonders Alter, Erkrankungsstadium und ein stark unterschiedliches Basisrisiko für eine Erkrankung [2]. Als Informations­quelle dienen die Ein- und Ausschlusskriterien einer Studie, mit denen festgelegt wird, welche Patienten in der Studie untersucht werden sollen. Weiterhelfen kann ebenfalls die Tabelle mit demografischen und klinischen Charakteristika der Probanden (s. Teil 1 dieser Serie).

Ein- und Ausschlusskriterien werden angewendet, um verschiedene Einflussfaktoren innerhalb einer Studie zu reduzieren. Dadurch ist ein statistisch signifikantes Ergebnis meist mit kleineren Fallzahlen erreichbar, als das bei einer Studie mit sehr heterogenen Patienten, z. B. mit vielen unterschiedlichen Begleiterkrankungen, der Fall wäre [3].

Um die Übertragbarkeit der Studienergebnisse auf die Praxis bewerten zu können, ist die Art der Patientenrekrutierung ebenfalls interessant. Nahmen z. B. ausschließlich stationäre Patienten an der Studie teil, so ist fraglich, ob die Ergebnisse auf Patienten im ambulanten Bereich übertragbar sind [4].

Beispiel: Die HYVET-Studie konnte eine Reduzierung von Schlaganfällen durch die Senkung des systolischen Blutdrucks von > 160 mmHg auf < 150 mmHg durch den Einsatz von Indapamid (evtl. zusätzlich Perindopril) bei Patienten über 80 Jahren zeigen [5]. Die eingeschlossenen Patienten waren jedoch gesünder als der durchschnittliche Patient (oder die Gesamtbevölkerung) dieser Altersklasse [6]. Zu den Ausschlusskriterien gehörten z. B. Demenz, orthostatische Hypotonie oder die Notwendigkeit, in einem Altersheim betreut zu werden. Die Ergebnisse der Studie können daher nicht auf den durchschnittlichen Patienten übertragen werden.

Was ist bei Studienabbrüchen zu beachten?

Laut Consort-Statement sollte in jeder Studie ein Flussdiagramm dargestellt sein, welches u. a. die Anzahl der Studien­abbrecher nennt und über die Gründe Aufschluss gibt (s. Abb. 1) [1]. Brechen mehr als 20 Prozent der Probanden die Studie ab, so können die Ergebnisse nicht als valide angesehen werden. Anschauen sollte man sich ebenfalls, ob mehr Teilnehmer in der Interventionsgruppe als in der Vergleichsgruppe die Studie abgebrochen haben. Dies könnte z. B. auf vermehrte Nebenwirkungen zurückzuführen sein [7].

Wenn die Daten der Probanden, die die Studie nicht planmäßig beendet haben, bei der Studienauswertung nicht berücksichtigt werden, sondern nur die Daten der anderen Patienten, so nennt man dies Per-protocol-Analyse. Hierbei besteht die Gefahr, die Wirksamkeit des getesteten Arzneimittels zu überschätzen oder seine Nebenwirkungen zu unterschätzen. Deshalb sollte möglichst eine Intention-to-treat-Analyse durchgeführt werden [8]. Hier fließen die Daten aller Probanden, die in die Studie eingeschlossen wurden, in die Analyse ein. Tendenziell wird der Effekt der Intervention bei der Intention-to-treat-Analyse eher unterschätzt.

Abb. 1: Consort-Flussdiagramm der im Verlauf einer randomisierten kontrollierten Studie ein- und ausgeschlossenen Teilnehmer [23].

Vorsicht: Subgruppenanalysen

Wird nicht die gesamte Studienpopulation, sondern lediglich ein Teil der Probanden ausgewertet, z. B. die 20- bis 40-Jährigen, so bezeichnet man dies als Subgruppenana­lyse. Diese Analysen sollten schon vor Beginn der Studie geplant sein. Subgruppenanalysen, die erst nach Sichtung der Daten durchgeführt werden, sind wenig glaubwürdig bzw. unzulässig. Meist können die Ergebnisse in weiteren Studien nicht verifiziert werden [1]. Ein bekanntes Beispiel macht das Problem deutlich: In der ISIS-2-Studie [9] konnte an über 17.000 Patienten eindrucksvoll gezeigt werden, dass Acetylsalicylsäure (ASS) die Mortalität nach einem Myokardinfarkt senkt. Eine Subgruppenanalyse konnte jedoch „nachweisen“, dass ASS bei Patienten mit den Sternzeichen Waage oder Zwilling nicht wirksam ist. Anders ausgedrückt: Führt man beliebig viele Subgruppenanalysen durch, so wird man zufällig auf ein statistisch signifikantes Ergebnis stoßen!

Alles ist relativ: die richtige Vergleichstherapie

Eine neue Therapie sollte immer gegen den aktuellen Therapiestandard getestet werden. Wichtig ist dabei eine sinnvolle Dosierung. Denn eine zu niedrig dosierte Vergleichstherapie führt zu einer Überschätzung des Effekts der Intervention, während eine zu hohe Dosierung die Nebenwirkungen der Intervention zu gering erscheinen lässt. Bei Erkrankungen, die ein hohes Selbstheilungspotenzial aufweisen, wie Erkältungen, ist es ethisch vertretbar, gegen ein Placebo zu testen [10].

Beispiel: In einer Hochglanzbroschüre zu einem pflanzlichen Präparat gegen Harnwegsinfektionen wird eine zweiarmige Studie angeführt, in der die Interventionsgruppe das Präparat als Add-on zur Antibiotikatherapie anwendete. Die Vergleichsgruppe erhielt lediglich das Antibiotikum, ein Placebo fehlte. So kann nicht ausgeschlossen werden, dass die in der Interventionsgruppe beobachtete Verkürzung der Krankheitsdauer auf andere Faktoren, z. B. psychologische Gründe, zurückzuführen ist.

Endpunkte

Die Wahl des Endpunktes ist ein weiteres wichtiges Beurteilungskriterium für die Relevanz einer Studie. Idealerweise ist der Endpunkt direkt patientenrelevant, z. B. bezüglich Mortalität oder Morbidität. Allerdings sind hierzu oft langfristige Studien notwendig, um den Endpunkt zu erreichen, und hohe Patientenzahlen, um ein klinisch relevantes Ergebnis erzielen zu können.

Surrogatendpunkte

Surrogatendpunkte sind Parameter, die stellvertretend für einen patientenrelevanten Endpunkt stehen sollen, z. B. Blutdruck, Cholesterolspiegel oder Serumglucosespiegel. Meist ist jedoch zum Zeitpunkt der Studie nicht eindeutig geklärt, ob die Verbesserung dieser Parameter zu einem Vorteil für den Patienten führt. Zudem wird nur dieser eine Aspekt betrachtet, während andere Zielkriterien außer Acht gelassen werden [11].

Ein prominentes Beispiel: In den frühen 80er-Jahren wurde ein Zusammenhang zwischen ventrikulären Extrasystolen und der Mortalität nach Myokardinfarkt gezeigt. In der Folge stand die Reduktion von ventrikulären Extrasystolen als Surrogatendpunkt in Studien für die Bewertung von Anti­arrhythmika. Erst die 1991 veröffentlichte CAST-Studie (Cardiac Arrhythmic Suppression Trial) zeigte, dass verschiedene Antiarrhythmika zwar die ventrikulären Extrasystolen wirkungsvoll verringerten, dass aber die Mortalität der behandelten Patienten dennoch erhöht war [12].

An dieser Stelle seien auch präklinische Studien erwähnt, die stellvertretend für den Patienten an isolierten Zellen oder an Versuchstieren durchgeführt werden, denn die Aussagen in Werbebroschüren beruhen nicht selten auf solchen Versuchen. Sie können jedoch nur sehr eingeschränkte Aussagen über die Wirkung der Testsubstanzen im Menschen machen und klinische Studien nicht ersetzen [13].

Nicht nur das „Was“, auch das „Wie“ ist entscheidend: Messmethoden

Für die Qualität einer Studie ist nicht nur die Auswahl des Endpunktes, sondern auch die Messmethode mitentscheidend. Diese sollte zum einen präzise sein, also wenig Abweichung bei Messwiederholungen aufweisen. Zum anderen ist auch Validität gefordert, d. h. der gemessene Wert soll dem realen Wert entsprechen. Dies ist besonders herausfordernd bei subjektiven, sogenannten „weichen“ Endpunkten, wie z. B. Lebensqualität, Schmerzen oder Mobilität. Wenn möglich, sollten bei „weichen“ Endpunkten validierte Skalen angewendet werden [3], damit das Messergebnis möglichst objektiv ist und Studienergebnisse untereinander vergleichbar sind.

Das Ausmaß dieser Problematik zeigte eine Untersuchung, die 2000 Studien zur Behandlung von Schizophrenie-Patienten verglich: 640 verschiedene Bewertungsskalen wurden angewendet, davon 369 lediglich ein einziges Mal [14]. Generell gilt, dass die Messmethode so detailliert beschrieben sein sollte, dass sie nachvollziehbar und wiederholbar ist [1].

Primäre und sekundäre Endpunkte

Klinische Studien sind zeit- und kostenaufwendig. Daher ist es nicht verwunderlich, dass die Untersucher gerne auf ­mehrere Endpunkte zurückgreifen, um verschiedene Fragestellungen gleichzeitig beantworten zu können. Dadurch ergeben sich jedoch Probleme in der statistischen Auswertung, denn je mehr Endpunkte ausgewertet werden, desto größer ist die Wahrscheinlichkeit, zufällig auf ein positives Ergebnis zu stoßen. Eine Adjustierung für diese Multiplizität wäre zwar möglich, aber durch diesen Ausgleich wird es wiederum wahrscheinlicher, dass ein echt positiver Behandlungseffekt nicht gezeigt wird [15]. Daher wird empfohlen, sich auf einen Endpunkt mit der größten Bedeutung festzulegen, einen primären Endpunkt [1]. Anhand dessen wird u. a. die Fallzahlbestimmung durchgeführt. Weitere, sekundäre Endpunkte können aus statistischer Sicht nur Hinweise auf Zusammenhänge geben, jedoch nicht konfirmatorisch sein. Dazu wären weitere Studien mit dem betreffenden Ergebnis als primärem Endpunkt notwendig [16].

Als primärer Endpunkt wird häufig ein kombinierter Endpunkt verwendet. Dieser setzt sich aus mehreren Endpunkten zusammen und ist dann erreicht, wenn einer dieser einzelnen Endpunkte eintritt [17]. Ein Beispiel: Wird als kombinierter Endpunkt Schlaganfall, Myokardinfarkt und kardiovaskulär bedingter Tod gewählt, so ist dieser erreicht, wenn eines dieser Ereignisse eingetreten ist.

Wichtig ist dabei: Die primären und sekundären Endpunkte sollten schon im Studienprotokoll festgelegt sein; eine Post-hoc-Analyse ist nicht ohne Weiteres zulässig und sollte sehr gut begründet sein [1]. Skepsis ist angebracht, wenn das Ergebnis des primären Endpunktes nicht genannt wird oder der sekundäre Endpunkt in den Vordergrund gestellt wird [11].

Festgelegte Dauer der Studie

Schon vor Beginn einer Studie wird der Zeitpunkt der Datenauswertung festgelegt. Zwischenauswertungen werden ausgeführt, um den Verlauf der Studie zu überwachen. So kann eine Studie beispielsweise aus ethischen Gründen vorzeitig beendet werden, wenn eine Therapie der anderen deutlich überlegen oder unterlegen ist. Dieses Vorgehen bringt allerdings verschiedene Probleme mit sich. Durch mehrfache Auswertungen steigt die Wahrscheinlichkeit, Behandlungseffekte zu finden, die nicht der Realität entsprechen [18] und sich im weiteren Verlauf der Studie relativieren würden. Weiterhin können Ergebnisse zu Endpunkten fehlen, die erst nach einer längeren Studiendauer erreicht werden, wie z. B. Mortalität. Auch die Untersuchung von unerwünschten Arzneimittelwirkungen ist bei kürzeren Studien eingeschränkt [19]. Aus diesen Gründen kann es schwierig sein, die Aussagekraft von vorzeitig abgebrochenen Studien zu beurteilen.

Fazit: Zwischenauswertungen, die nicht schon im Studienprotokoll festgelegt wurden, können keinesfalls als Wirksamkeitsnachweis dienen [20]. Bei den statistischen Berechnungen müssen diese Mehrfach­auswertungen entsprechend berücksichtigt werden. Über den Abbruch einer Studie sollte möglichst ein unabhängiges Gremium entscheiden [21].

Unerwünschte Arzneimittelwirkungen

Um den möglichen Nutzen und Schaden einer Therapie für einen Patienten bewerten zu können, ist es notwendig, dass auch die unerwünschten Wirkungen genannt und definiert werden. Sind Patienten aufgrund von Nebenwirkungen aus der Studie ausgeschieden, so ist dies ebenfalls zu vermerken (s. o., Consort-Statement, Abb. 1) [1].

Sponsoring

Es konnte gezeigt werden, dass Studien, die von der Industrie finanziert werden, häufiger eine günstige Wirkung des Medikaments zeigen als Studien, die unabhängig finanziert wurden [22]. Daher wird eine Offenlegung der Finanzierung gefordert [1]. |

Literatur

 [1] Moher D et al. CONSORT 2010 Explanation and Elaboration: updated guidelines for reporting parallel group randomized trials. BMJ 2010;340:c869

 [2] Hinneburg I. Die Anwendbarkeit der Studie beurteilen, in: Klinische Studien kritisch lesen. Wissenschaftliche Verlagsgesellschaft Stuttgart 2015, 52-59

 [3] Röhrig B, du Prel J-B, Blettner M. Studiendesign in der medizinischen Forschung. Dtsch Ärztebl 2009;106(11):184-189

 [4] Günther J. Prüfprotokoll – das Rückgrat einer klinischen Studie, in: Anleitung zur Bewertung klinischer Studien. Deutscher Apotheker Verlag Stuttgart 2001;12-19

 [5] Beckett NS et al. Treatment of Hypertension in Patients 80 Years of Age or Older. N Engl J Med 2008;358:1887-98

 [6] Mancia G et al. 2013 ESH/ESC Guidelines for the management of ­arterial hypertension. J Hypertens 2013;31:1281–1357

 [7] Hinneburg I. Tricks bei der Auswertung und Präsentation von Stu­diendaten, in: Klinische Studien kritisch lesen. Wissenschaftliche Verlagsgesellschaft Stuttgart 2015, 40-51

 [8] Nüesch E. Ausschluss von Patienten aus der Analyse. Dtsch Ärztebl 2009; 106(39):A-1893 / B-1623 / C-1591

 [9] ISIS-2 (Second International Study on Infarct Survival) Collaborative Group. Randomised trial of intravenous streptokinase, oral aspirin, both, or neither among 17187 cases of suspected acute myocardial ­infarction: ISIS-2. Lancet 1988;2(8607):349-360

[10] Hinneburg I. Die richtige Kontrolle, in: Klinische Studien kritisch ­lesen. Wissenschaftliche Verlagsgesellschaft Stuttgart 2015, 20-22

[11] Greenhalgh T. Surrogatendpunkte, in: Einführung in die evidenz­basierte Medizin. 3. Auflage, Verlag Hans Huber 2015, 119-123

[12] Connoly SJ. Use and misuse of surrogate outcomes in arrhythmia ­trials. Circulation 2006;113(6):764-766

[13] Hinneburg I. Kritischer Blick auf den Studientyp, in: Studien kritisch lesen. Wissenschaftliche Verlagsgesellschaft Stuttgart 2015, 7-18

[14] Thornley B, Adams C. Content and quality of 2000 controlled trials in schizophrenia over 50 years. BMJ 1998;317(7167):1181-84

[15] Freemantle N. Interpreting the results of secondary endpoints and subgroup analyses in clinical trials: should we lock the crazy aunt in the attic? BMJ 2001;322:989-991

[16] Hinneburg I. Endpunkte, in: Studien kritisch lesen. Wissenschaft­liche Verlagsgesellschaft Stuttgart 2015, 44

[17] Schulz KF, Grimes DA. Multiplizität in randomisierten Studien, I: Endpunkte und Behandlungen. Z Ärztl Fortbild Qual Gesundhwes 2006;100:617-623

[18] Schulz KF, Grimes DA. Multiplizität in randomisierten Studien, II: Subgruppenanalysen und Zwischenauswertungen. Z Ärztl Fortbild Qual Gesundhwes 2007;101:51-58

[19] Im Blickpunkt: Wie aussagekräftig sind vorzeitig abgebrochene ­Studien? arznei-telegramm 2005;36:107-108

[20] Günther J. Zwischenauswertungen ohne Plan, in: Anleitung zur Bewertung klinischer Studien. Deutscher Apotheker Verlag Stuttgart 2001, 126

[21] Hinneburg I. Zwischenauswertungen und vorzeitiger Studien­abbruch, in: Studien kritisch lesen. Wissenschaftliche Verlagsgesellschaft Stuttgart 2015, 45-46

[22] Bero L. Industry sponsorship and research outcome: a Cochrane review. JAMA 2013;173(7):580-581

[23] Schulz KF, Altman DG, Moher D. Aktualisierte Leitlinie für Berichte randomisierter Studien im Parallelgruppen-Design. Dtsch Med ­Wochenschr 2011;136:e20-23

Die nächste Folge

Teil 3: Grundlagen der medizinischen Statistik

Autorinnen

Monika Dircks arbeitet seit 2006 als Krankenhausapothekerin, zurzeit als Stationsapothekerin in der Strahlen- und Frauenklinik des Universitäts­klinikums Erlangen.

Dr. Mirjam Gnadt arbeitet als Krankenhausapothekerin im Universitätsklinikum Erlangen und leitet die dort ansässige Arzneimittelinformationsstelle der Bayerischen Landesapothekerkammer.

autor@deutsche-apotheker-zeitung.de

config_id: user_is_logged_out_and_article_is_DAZ_plus

Jetzt abonnieren und weiterlesen!

Sie haben noch kein Abo?

Abonnieren und die DAZ unbegrenzt lesen.

(Bitte beachten Sie, für den Abschluss eines Abos müssen Sie zunächst eine DAViD-Registrierung abschließen - Sie werden auf die Registrierungsseite weitergeleitet, sollten Sie nicht eingeloggt sein)

oder

Sie registrieren sich bei DAViD und schalten anschließend Ihr bestehendes Abonnement für die Website frei.

config_id: user_is_logged_in_and_article_is_DAZ_plus

Jetzt abonnieren und weiterlesen!

Abonnieren und die DAZ unbegrenzt lesen.

(Bitte beachten Sie, für den Abschluss eines Abos müssen Sie zunächst eine DAViD-Registrierung abschließen - Sie werden auf die Registrierungsseite weitergeleitet, sollten Sie nicht eingeloggt sein)

config_id: user_is_logged_out_and_article_is_DAZ_reg

Jetzt einloggen und weiterlesen!

oder

Abonnieren und die DAZ unbegrenzt lesen.

(Bitte beachten Sie, für den Abschluss eines Abos müssen Sie zunächst eine DAViD-Registrierung abschließen - Sie werden auf die Registrierungsseite weitergeleitet, sollten Sie nicht eingeloggt sein)