Bad Science - Florian Meinfelder, Rebekka Kluge

Blick ins Buch

Bad Science (eBook)

Die dunkle Seite der Statistik

Florian Meinfelder, Rebekka Kluge (Autoren)

eBook Download: PDF | EPUB

2019 | 1. Auflage
152 Seiten
Vahlen (Verlag)
978-3-8006-6029-2 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (EPUB)

DIE SENSIBILITÄT FÜR DEN MISSBRAUCH STATISTISCHER METHODEN ERHÖHEN

Unter dem Begriff 'Bad Science' verstehen die Autoren und Herausgeber dieses Bandes sowohl schlampiges Vorgehen beim wissenschaftlichen Arbeiten, als auch auf Grund von Vorurteilen zu einseitig geratene Untersuchungen, bis hin zum Fälschen von Ergebnissen.

Die Beiträge dieses Sammelbandes basieren auf Seminararbeiten des 'Blockseminar Survey Methodik', das im Rahmen des Masterstudiengangs Survey-Statistik von der Otto-Friedrich-Universität Bamberg angeboten wurde.

Die Verfassenden der Beiträge sind somit alle Studierende, die an diesem Seminar teilgenommen und sich thematisch mit der Problematik 'Bad Science' auseinandergesetzt haben. Auf Grund der großen Relevanz des Themas wurde die Veröffentlichung der Artikel im Rahmen dieses Sammelbandes beschlossen, damit noch mehr Leser von den Erkenntnissen profitieren können. Inhaltlich wird eine theoretische Auseinandersetzung mit dem p-Wert allgemein, mit der Größe von Stichproben, dem Vorgehen des p-Hacking, der Schwäche von klassischen Hypothesentests und dem Vorgehen des HARKing aufgearbeitet.

AUS DEM INHALT:
I. Methodische Grundlagen
II. (K)eine Anleitung zum Mogeln
III. Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst
IV. Handfeste Konsequenzen in der wirklichen Welt

DIE HERAUSGEBER:
Rebekka Kluge, GESIS - Leibniz-Institut für Sozialwissenschaften, Mannheim, Dr. Florian Meinfelder, Lehrstuhl für Statistik und Ökonometrie, Otto-Friedrich-Universität Bamberg

43Teil II
(K)eine Anleitung zum Mogeln

44Die Beiträge in diesem Teil beleuchten die bereits an einigen Stellen erwähnten Begriffe p-Hacking und HARKing. Aber was sind p-Hacking und HARKing eigentlich? Es sind in der Regel keine „Methoden“, zumindest hoffen wir das, denn es würde pauschal Vorsatz und damit auch eine gewisse kriminelle Energie unterstellen. Vielmehr denken wir, dass es sich bei den beiden Begriffen in den allermeisten Fällen um Beschreibungen einer Art Prozess handelt, der sich sukzessive ergibt und teilweise ist den Wissenschaftlern der Missbrauch vielleicht nicht einmal bewusst und es ist ihnen auch nicht vollständig klar, dass die so erzielten „signifikanten“ Ergebnisse wissenschaftlich unbrauchbar sind. Möglicherweise sehen manche auch eine Art Herausforderung darin, den Daten die „Wahrheit“ zu entreißen, womit wir bei dem zu Beginn von Kapitel 3 aufgeführten Zitat von Ronald Coase sind und bei der Feststellung, dass der Missbrauch statistischer Verfahren kein ganz neues Phänomen ist, da er die Aussage vor ungefähr 60 Jahren getätigt hat.

Wir hoffen außerdem, dass die Leser diesen Teil nicht als Anleitung zum Schummeln auffassen, denn so sind die Beiträge der Autoren wahrlich nicht gemeint. Vielmehr geht es darum, dass wir alle unser Vorgehen bei der Modellierung kritisch hinterfragen müssen und die Herausgeber des Sammelbands sind nicht ohne Schuld: Auch wir sind bereits in eine Situation geraten, in der wir mit dem ersten Modell ’unzufrieden’ waren. Aber warum? Weil unsere Erwartung bezüglich der Ergebnisse eine andere war: Es erschien so plausibel, dass es – auch unter Einbeziehung von Kontrollvariablen – einen klar erkennbaren25 Zusammenhang geben musste, aber im geschätzten Modell war davon nichts zu sehen. Vielleicht war der Zusammenhang nicht linear und wir sollten noch Polynome oder Interaktionen aufnehmen …?

Und schon ist der erste Schritt zum Missbrauch statistischer Verfahren unternommen und am Ende haben wir eventuell nur gezeigt, dass es möglich ist, mit den zugrundeliegenden Daten eine vorgefasste Hypothese anhand signifikanter Parameterschätzer eines Modells zu bestätigen. Wissenschaftlicher Nutzen gleich null. Ein nicht genug erwähnter Aspekt in diesem Kontext sind die im Laufe der Zeit immer geringer gewordenen „Kosten“ für modifizierte Wiederholungen von Analysen. Statistische Software lässt uns in Windeseile neue (zufriedenstellendere) Ergebnisse produzieren und trägt somit ebenfalls zur Verbreitung von Bad Science bei. Umso wichtiger ist Sorgfalt bei der Entwicklung des theoretischen Modells, und wenn man das erste zugunsten eines anderen verwirft, sollte dies nicht auf Grund der vorgefunden Ergebnisse geschehen.

454. Schritt für Schritt zum falsch-positiven Ergebnis

Kristina M. Neufang

4.1 Einleitung

Das Ziel von Forschung ist es unter anderem, existierende beziehungsweise reale Zusammenhänge zwischen Phänomenen zu entdecken. Dazu werden Theorien aufgestellt, Hypothesen abgeleitet, Daten erhoben und untersucht, ob die Daten mit den formulierten Hypothesen übereinstimmen. Zwei Arten von Fehlern können dabei auftreten: Zum einen ein falsch-negativer Befund, das heißt die Ergebnisse der statistischen Analyse weisen darauf hin, dass zwei Phänomene nicht zusammenhängen, obwohl sie in der Realität assoziiert sind (β-Fehler). Zum anderen ein falsch-positiver Befund, das heißt der statistische Test weist auf einen Zusammenhang der Phänomene hin, obwohl in der Realität kein Zusammenhang besteht (a-Fehler).

Aufgrund der Anreize im Wissenschaftssystem scheinen falsch-positive Befunde häufiger aufzutreten (Ioannidis, 2005). So stellen Smaldino u. McElreath (2016) einen zunehmenden Wettbewerbsdruck im Forschungsbetrieb fest, der dazu führt, dass die Anzahl an peer-reviewten Publikationen immer wichtiger wird, um sich im Wissenschaftssystem zu etablieren. Dabei sind Forscher motiviert statistisch signifikante Ergebnisse aufzuzeigen, da „[…] positive results in support of some novel hypothesis are more likely to be published than negative results […]“ (Smaldino u. McElreath, 2016, S. 4).26 Dieser Anreiz im Zusammenspiel mit dem, was Simmons u. a. (2011) unter dem Begriff „Researcher degrees of freedom“ diskutieren, kann jedoch zu einer Erhöhung falsch-positiver Befunde führen.

Datenerhebung und -analyse stellen Forscher vor verschiedene Entscheidungen. So ist unter Anderem zu überlegen, inwieweit es sinnvoll ist weitere Daten zu erheben, Ausreißer von der Analyse auszuschließen oder Daten zu transformieren. Bei diesen Entscheidungen gibt es meist kein regelbasiertes Vorgehen. Die Motivation statistisch signifikante Ergebnisse aufzeigen zu können, kann nun dazu führen, dass eine Vielzahl von Kombinationen dieser Entscheidungsmöglichkeiten erprobt wird, um nach Möglichkeit zu einem statistisch signifikanten Ergebnis zu gelangen, wodurch die Analyse explorativen Charakter erhält. Ein exploratives Vorgehen bei der Datenanalyse führt jedoch dazu, dass sich die Bedeutung des p-Wertes (das vermutlich immer noch am häufigsten eingesetzte Maß zur Bestimmung statistischer Signifikanz) verändert und falsch-positive Befunde zunehmen: „Conducting multiple analyses of the data and reporting only those with certain p-values (typically those passing a significance 46threshold) renders the reported p-values essentially uninterpretable“ (Wasserstein u. Lazar, 2016, S. 131–132).

Entsprechende Praktiken können bewusst (sogenanntes „p-Hacking“27, z. B. Head u. a., 2015) und auch unbewusst geschehen, wobei beide Fälle äußerst problematisch sind: Zum Beispiel kann die Definition beziehungsweise Bestimmung von Ausreißern einen großen Einfluss auf die Ergebnisse von Analysen haben. Für die Bestimmung von Ausreißern gibt es jedoch kein klar definiertes Vorgehen. Vielmehr liegt es im Ermessen des Forschers zu entscheiden, welche Fälle als Ausreißer zu behandeln sind (und damit aus der Analyse ausgeschlossen werden sollten) und welche nicht. Auch Datentransformationen können, wenn sie post hoc und nicht theoriegeleitet erfolgen, zu falsch-positiven Ergebnissen führen. Ebenfalls problematisch kann die schrittweise Erhöhung einer Stichprobe sein, wenn diese, statt vor Beginn der Datenerhebung bestimmt zu werden (z. B. mit Hilfe einer Poweranalyse), sukzessive erhöht wird, bis der p-Wert das festgelegte a-Niveau unterschreitet (siehe auch Simmons u. a., 2011). Die Ergebnisse einer Arbeit der Open Science Collaboration (2015), in der eine Vielzahl psychologischer Effekte nicht repliziert werden konnte beziehungsweise der Replikationseffekt deutlich schwächer als der Originaleffekt ausgefallen ist, verdeutlichen die Problematik entsprechender Praktiken. Die Wirkungsweise eines solchen Vorgehens näher zu untersuchen, kann daher von großem Interesse sein. So soll im Folgenden anhand einer Simulation untersucht werden, inwieweit die schrittweise Erhöhung einer Stichprobe – gepaart mit der regelmäßigen Berechnung des p-Wertes – zu einer kritischen Erhöhung falsch-positiver Ergebnisse führen kann.

4.2 Simulationsaufbau

Die Wirkungsweise und möglichen Konsequenzen des schrittweisen Erhöhens einer Stichprobe werden im Folgenden mittels einer entsprechenden Simulation untersucht.28 Zunächst wurden zwei unkorrelierte, standardnormalverteilte Zufallsvariablen erzeugt (ZV1/ZV2: N = 1.000.000, M = 0, SD = 1, Pearson’s r = 0,00).29 Abbildung 4.1 zeigt den entsprechenden bivariaten Kerndichteschätzer. Die Unkorreliertheit der beiden Variablen ist an der dafür typischen Kegelform des Kerndichteschätzers zu erkennen.

Abbildung 4.1: Bivariater Kerndichteschätzer der Zufallsvariablen

4.2.1 Ziehung der Stichproben

In einem nächsten Schritt erfolgte die Stichprobenziehung. Die Ziehung der Stichproben wurde so gestaltet, dass die Ergebnisse des nachfolgenden Hypothesentests zwischen (a) einer schrittweise zu erhöhenden Stichprobe und (b) einer festen Stichprobe (Kontrollstichprobe) verglichen werden konnten. In einer ersten Simulation wurde hierzu für Fall (b) eine Stichprobe mit einem festen Stichprobenumfang von n = 200 Elementen gezogen. Für Fall (a) wurden zunächst vier Elemente gezogen,30 um anschließend jeweils ein weiteres Element der Stichprobe hinzuzufügen, bis sich entweder ein signifikantes Testergebnis einstellte, oder die Stichprobengröße aus Fall (b) (hier n = 200 Elemente) erreicht wurde. Die Stichprobenziehung wurde für beide Fälle jeweils 1000-mal wiederholt.

4.2.2 Hypothesentest

In einem weiteren Schritt wurden für die unterschiedlichen Arten der Stichprobenziehung (a) und (b) über den Korrelationskoeffizienten von Pearson, Tests auf Unabhängigkeit der beiden Stichprobenvariablen durchgeführt. In Fall (a) wurde der Test innerhalb einer Schleife mehrmals wiederholt: Der Test erfolgte jedes Mal, wenn ein weiteres Element in die bestehende Stichprobe aufgenommen...

Erscheint lt. Verlag	18.11.2019
Sprache	deutsch
Themenwelt	Wirtschaft ► Allgemeines / Lexika
Schlagworte	Fake-News • Fälschung • Hypothesentests • Statistik • Stichprobenmessung
ISBN-10	3-8006-6029-6 / 3800660296
ISBN-13	978-3-8006-6029-2 / 9783800660292

Haben Sie eine Frage zum Produkt?

PDF (Wasserzeichen)
Größe: 5,6 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

EPUB (Wasserzeichen)
Größe: 6,9 MB

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Print-Ausgabe

Buch | Softcover

29,80 €