In der (psychologischen) Forschung stehen wir vor wesentlichen Herausforderungen in Bezug auf die Reproduzierbarkeit und Replizierbarkeit wissenschaftlicher Befunde. Unter Reproduzierbarkeit wird allgemein verstanden, dass Ergebnisse mit den gleichen Daten erneut berechnet werden können.
Unter Replizierbarkeit wiederum versteht man die wiederholte Durchführung einer Studie mit erneuter Datenerhebung. Sowohl Reproduzierbarkeit als auch Replizierbarkeit von wissenschaftlichen Ergebnissen stellen die Grundlage für einen evidenzbasierten Diskurs dar.
In den vergangenen Jahren stellte sich jedoch, insbesondere in der Psychologie, heraus, dass eine erschreckend hohe Zahl von Ergebnissen nicht reproduziert oder repliziert werden konnten. Insbesondere wenn ein Effekt nach erneuter Datenerhebung nicht gefunden kann, stellt sich die Frage, ob die Originalergebnissen angezweifelt werden sollen, oder ob die Replikationsstudie die Originalstudie nicht akkurat nachgestellt hat (Alpha oder Beta Fehler).
In dem Vortrag werden Probleme der Replikation und Reproduktion in der (psychologischen) Forschung herausgestellt, mögliche Ursachen angesprochen und potentielle Lösungen vorgestellt.
Die Replikationskrise in der Psychologie
Da die Wissenschaft bekanntlich das Neue prämiert und nicht das Bestätigen von Altem, kommt es in vielen Wissenschaften, auch der Psychologie, zu einer Replikationskrise.
Lesen Sie auch: Definition psychischer Störungen
Eine der Ursachen ist die Verwendung des heute vorherrschenden Standardansatzes zur Beurteilung wissenschaftlicher Hypothesen, die Signifikanzprüfung. Diese bringt viel zu viele positiv falsche Ergebnisse hervor, wobei es meist an methodischer Strenge mangelt. Außerdem suggeriert sie signifikante und publikationswürdige Zusammenhänge, wo es sich meist nur um interessante Auffälligkeiten handelt, die sich von bisherigen Beobachtungen nur marginal unterscheiden.
Strengere statistische Verfahren könnten hier Abhilfe schaffen, wobei es generell aber auch ein viel größeres öffentliches Interesse an Replikationsstudien bräuchte.
Statistische vs. Praktische Signifikanz
Es gibt in der Forschungspraxis zwei unterschiedliche Bedeutungen von Signifikanz, die voneinander unabhängig sind, wobei die beiden Sachverhalte meist mit dem gleichen Wort bezeichnet werden, was vielfach den Ausgangspunkt für Missverständnisse in der Kommunikation über die Ergebnisse bildet und einen wissenschaftlichen Kunstfehler darstellt.
Die statistische Signifikanz als Begriff der Inferenzstatistik, die nicht nur die erhobenen Daten beschreibt und zu Parametern (z. B. Mittelwerte)verdichtet, sondern auch Schlüsse eben auf deren Signifikanz ermöglicht, also die Wahrscheinlichkeit angibt, mit der bei kleineren Erhebungsstichproben berechnete Parameter durch Induktion auf größere Stichproben oder gar auf die Population (Grundgesamtheiten) der potentiellen Merkmalsträger verallgemeinert werden können.
Bei dieser Form der Signifikanz geht es also um Generalisierung, wobei mit relativ geringem vor allem kostengünstigen Aufwand mit einer angebbaren Wahrscheinlichkeit auf Verteilungen in einer Gesamtheit geschlossen werden kann.
Lesen Sie auch: Mehr zum Thema ökologisches Verhalten
Davon unterschieden werden muss hingegen die praktische Signifikanz im Sinne von Relevanz oder Bedeutsamkeit. Diese ergibt sich aus der Bewertung, also der Interpretation der erhobenen Daten und der darin hergestellten Relation zu den gesetzten Kriterien.
Sind z. B. die Unterschiede zwischen den gemessenen Mittelwerten von Teilgruppen so groß, dass z.B. ein Interventionsprogramm mehr oder weniger positiv zu bewerten ist?
Zentral sind dabei oft Maße der Effektstärke, mit denen man die Bedeutsamkeit von etwa auf Grund großer Stichproben immer signifikanten statistischen Tests bewerten kann. Effektstärke oder Effektgröße bezeichnet dabei ein (standardisiertes) statistisches Maß, das die (relative) Größe eines Effektes angibt, der vorliegt, wenn in de, (zugehörigen) statistischen Test die Nullhypothese (=kein Effekt) abgelehnt wird.
Aus diesem Grund kann die Effektstärke auch zur Verdeutlichung einer gewissen praktischen Relevanz von signifikanten Ergebnissen herangezogen werden, die aus randomisierten Stichproben durch Teststatistiken gewonnen wurden. Oft wird eine Mindesteffektgröße vor der Durchführung einer Untersuchung aufgestellt.
Wird einen statistischer Test durchgeführt, so kann praktisch immer die Nullhypothese zurückgewiesen werden, wenn nur eine genügend große Anzahl von Messergebnissen einbezogen sind. Ein Test wird bekanntlich bei genügend großen Stichproben also praktisch immer signifikant. Ein signifikantes Testergebnis wird also nur dann akzeptiert, wenn die Effektgröße z.B. mindestens 0.4 (mittlere Effektgröße) beträgt.
Lesen Sie auch: Definition: Psychologie der Rache
tags: #replikation #definition #psychologie