Ein Grund Einige wissenschaftliche Studien können falsch sein

Da ist ein Replizierbarkeitskrise in der Wissenschaft – nicht identifizierte „falsch positive“ Ergebnisse durchdringt sogar unsere Top-Forschungszeitschriften.

Ein falsch positives Ergebnis ist die Behauptung, ein Effekt existiere, obwohl dies in Wirklichkeit nicht der Fall ist. Niemand weiß, wie viele veröffentlichte Arbeiten solche falschen oder übertriebenen Ergebnisse enthalten, aber es gibt Anzeichen dafür, dass der Anteil nicht gering ist.

Die beste Erklärung für dieses Phänomen lieferte der Epidemiologe John Ioannidis in einem berühmten Artikel aus dem Jahr 2005 mit dem provokanten Titel „Warum die meisten veröffentlichten Forschungsergebnisse falsch sindEiner der Gründe, die Ioannidis für so viele falsche Ergebnisse angab, lautete: „p „Hacking“, das aus dem Druck entsteht, den Forscher verspüren, statistische Signifikanz zu erreichen.

Was ist statistische Signifikanz?

Um aus Daten Schlussfolgerungen zu ziehen, verlassen sich Forscher normalerweise auf Signifikanztest. Vereinfacht ausgedrückt bedeutet dies die Berechnung der „p Wert“, also die Wahrscheinlichkeit von Ergebnissen wie unserem, wenn es wirklich keinen Effekt gibt. Wenn die p Ist der Wert ausreichend klein, wird das Ergebnis als statistisch signifikant erklärt.

Traditionell, a p Wert von weniger als .05 ist das Kriterium für Signifikanz. Wenn Sie einen pBei einem Ergebnis < 05 glauben die Leser wahrscheinlich, dass Sie einen echten Effekt gefunden haben. Möglicherweise gibt es aber auch gar keinen Effekt und Sie haben ein falsch positives Ergebnis gemeldet.


Innerself-Abonnieren-Grafik


Viele Zeitschriften veröffentlichen nur Studien, die einen oder mehrere statistisch signifikante Effekte aufweisen. Doktoranden lernen schnell, dass das Erreichen der mythischen p

Dieser Leistungsdruck pp-Hacking.

Die Verlockung von p Hacking

Um zu veranschaulichen p Hacking, hier ist ein hypothetisches Beispiel.

Bruce hat kürzlich seine Promotion abgeschlossen und ein renommiertes Stipendium erhalten, um einem der führenden Forschungsteams seines Fachgebiets beizutreten. Sein erstes Experiment verläuft nicht gut, aber Bruce verfeinert die Verfahren schnell und führt eine zweite Studie durch. Diese sieht vielversprechender aus, liefert aber immer noch keine p Wert von weniger als 05.

Bruce ist überzeugt, etwas entdeckt zu haben und sammelt weitere Daten. Er beschließt, einige Ergebnisse zu streichen, da diese eindeutig falsch schienen.

Dann bemerkt er, dass eine seiner Maßnahmen ein klareres Bild liefert, also konzentriert er sich darauf. Nach ein paar weiteren Optimierungen entdeckt Bruce schließlich einen etwas überraschenden, aber wirklich interessanten Effekt, der p

Bruce hat sich so sehr bemüht, den Effekt zu erzielen, dass er wusste lauerte irgendwo. Er spürte auch den Druck zu schlagen p

Die Sache hat nur einen Haken: Es gab tatsächlich keinen Effekt. Trotz des statistisch signifikanten Ergebnisses hat Bruce ein falsch positives Ergebnis veröffentlicht.

Bruce hatte das Gefühl, dass er seine wissenschaftlichen Erkenntnisse nutzte, um den lauernden Effekt aufzudecken, als er nach Beginn seiner Studie verschiedene Schritte unternahm:

  • Er sammelte weitere Daten.
  • Er ließ einige Daten fallen, die ihm abweichend erschienen.
  • Er ließ einige seiner Maßnahmen fallen und konzentrierte sich auf die vielversprechendsten.
  • Er analysierte die Daten etwas anders und nahm noch einige weitere Optimierungen vor.

Das Problem ist, dass alle diese Entscheidungen getroffen wurden nachdem die Daten zu sehen. Bruce hat möglicherweise unbewusst Rosinenpickerei betrieben – ausgewählt und optimiert, bis er das schwer fassbare pp

Statistiker haben ein Sprichwort: Wenn man die Daten nur genug manipuliert, werden sie gestehen. Entscheidungen und Anpassungen, die nach Einsicht der Daten getroffen werden, sind fragwürdige Forschungspraktiken. Diese zu verwenden, ob absichtlich oder nicht, um das richtige statistische Ergebnis zu erzielen, ist p Hacking, was ein wichtiger Grund dafür ist, dass veröffentlichte, statistisch signifikante Ergebnisse falsch-positiv sein können.

Welcher Anteil der veröffentlichten Ergebnisse ist falsch?

Das ist eine gute und teuflisch schwierige Frage. Niemand kennt die Antwort, und die Antwort fällt in verschiedenen Forschungsbereichen wahrscheinlich unterschiedlich aus.

Eine große und beeindruckende Studie zur Beantwortung dieser Frage für die Sozial- und Kognitionspsychologie wurde 2015 veröffentlicht. Unter der Leitung von Brian Nosek und seinen Kollegen am Center for Open Science Replizierbarkeitsprojekt: Psychologie (RP:P) 100 Forschungsgruppen weltweit ließen jeweils eines von 100 veröffentlichten Ergebnissen sorgfältig replizieren. Insgesamt etwa 40 repliziert ziemlich gut, während in etwa 60 Fällen die Replikationsstudien kleinere oder viel kleinere Effekte erzielten.

Die 100 RP:P-Replikationsstudien berichteten über Effekte, die im Durchschnitt nur halb so groß waren wie die Effekte der Originalstudien. Die sorgfältig durchgeführten Replikationen liefern wahrscheinlich genauere Schätzungen als die möglicherweise p Originalstudien wurden gehackt, sodass wir zu dem Schluss kommen konnten, dass die Originalstudien die tatsächlichen Auswirkungen im Durchschnitt um den Faktor zwei überschätzten. Das ist alarmierend!

Wie man es vermeidet p Hacking

Der beste Weg, um zu vermeiden, p Hacking bedeutet, nach dem Betrachten der Daten keine Auswahl oder Änderungen vorzunehmen. Mit anderen Worten: Vermeiden Sie fragwürdige Forschungspraktiken. In den meisten Fällen ist der beste Weg, dies zu tun, die Verwendung von Voranmeldung.

Für die Vorregistrierung müssen Sie im Voraus einen detaillierten Forschungsplan erstellen, einschließlich der statistischen Analyse der Daten. Anschließend registrieren Sie den Plan mit Datumsstempel bei der Open Science Framework oder ein anderes Online-Register.

Dann Führen Sie die Studie durch, analysieren Sie die Daten gemäß dem Plan und berichten Sie über die Ergebnisse, egal wie diese aussehen. Die Leser können den vorregistrierten Plan überprüfen und so sicher sein, dass die Analyse im Voraus festgelegt wurde und nicht p gehackt. Die Vorregistrierung ist für viele Forscher eine herausfordernde neue Idee, aber wahrscheinlich der Weg der Zukunft.

Schätzung statt p Werte

Die Versuchung zu p Hack ist einer der großen Nachteile des Vertrauens auf p Werte. Ein weiterer Grund ist, dass die peher so, als würde man sagen, dass ein Effekt existiert oder nicht.

Aber die Welt ist nicht schwarz und weiß. Um die zahlreichen Grautöne zu erkennen, ist es viel besser, Schätzung statt p Werte. Ziel der Schätzung ist es, die Größe eines Effekts abzuschätzen – dieser kann klein oder groß, null oder sogar negativ sein. Ein falsch positives Ergebnis ist eine Schätzung, die größer oder deutlich größer ist als der wahre Wert eines Effekts.

Betrachten wir eine hypothetische Studie über die Auswirkungen einer Therapie. Die Studie könnte beispielsweise zu dem Ergebnis kommen, dass eine Therapie die Angst im Durchschnitt um 7 Punkte verringert. Angenommen, wir berechnen aus unseren Daten einen Konfidenzintervall – ein Unsicherheitsbereich auf beiden Seiten unserer besten Schätzung – von [4, 10]. Dies sagt uns, dass unsere Schätzung von 7 höchstwahrscheinlich innerhalb von etwa 3 Punkten auf der Angstskala des wahren Effekts liegt – dem wahren durchschnittlichen Nutzen der Therapie.

Mit anderen Worten: Das Konfidenzintervall gibt an, wie präzise unsere Schätzung ist. Die Kenntnis einer solchen Schätzung und ihres Konfidenzintervalls ist viel aussagekräftiger als jede p Wert.

Ich bezeichne die Schätzung als eine der „neuen Statistiken“. Die Techniken selbst sind nicht neu, aber ihre Verwendung als primäre Methode, um Schlussfolgerungen aus Daten zu ziehen, wäre für viele Forscher neu und ein großer Fortschritt. Sie würde auch dazu beitragen, die Verzerrungen zu vermeiden, die durch p hacken.

Über den Autor

Geoff Cumming, emeritierter Professor, La Trobe University

Dieser Artikel wurde ursprünglich veröffentlicht am Das Gespräch.. Lies das Original Artikel.

Bücher zum Thema:

{amazonWS:searchindex=Books;keywords=peer review;maxresults=3}