Debatte

«Die Publikationspraxis muss sich ändern»

Die Flut von wissenschaftlichen Veröffentlichungen bringt das Publikationssystem an seine Grenzen. Untersuchungen stellen die Reproduzierbarkeit der Ergebnisse in Frage. Ein Gespräch mit dem Neuropsychologen Lutz Jäncke und dem Systembiologen Lawrence Rajendran über die Krise im Publikationsprozess und neue Lösungen wie die Plattform «Matters of Reproducibility».

Gesprächsführung: Stefan Stöcklin

jäncke
jäncke
«Wir haben diese Probleme der Reproduzierbarkeit nicht nur in der Psychologie, sondern auch in anderen Gebieten. Sie stellen sich in manchen Psychologiedisziplinen in verschärftem Masse, weil man hier kleine Effekte misst», sagt Lutz Jäncke.

Die Zahl wissenschaftlicher Publikationen wächst laufend, bereits werden täglich über 5000 Studien publiziert. Doch bei der Qualität stellen sich Fragen, viele Ergebnisse lassen sich nicht reproduzieren. Wie präsentiert sich die Situation in Ihrem Forschungsgebiet?

Lawrence Rajendran: Es stimmt, eine überwiegende Mehrheit der Forscherinnen und Forscher ist gemäss einer Umfrage von «Nature» der Meinung, dass wir uns in einer Krise befinden. Man kann es als Reproduzierbarkeitskrise bezeichnen, aber eigentlich geht es um das Publikations- und Wissenschaftssystem insgesamt. Es setzt die Wissenschaftler unter Druck, in angesehenen High-Impact-Journalen zu publizieren. Das führt zu Studien, die sich dann nicht oder nur teilweise reproduzieren lassen. 

Lutz Jäncke: Ich denke, dass es vor allem eine Frage der Masse ist, die Qualität der Veröffentlichungen an sich ist nicht per se schlechter als früher. Die Psychologie steht bei dieser Diskussion etwas im Rampenlicht, was mit den Phänomenen und Prozessen zu tun hat, die wir untersuchen. Ich bin einverstanden: Es braucht für die Zukunft neue Ansätze zur Analyse und Überprüfung der Daten und mehr Zusammen-arbeit. 

Die Psychologie sorgt in der Tat für Schlagzeilen: Grosse Wellen hat eine Studie der «Open Science Collaboration» im Jahr 2015 geworfen, in der 100 publizierte psychologische Arbeiten wiederholt wurden. In den ursprünglichen Publikationen zeigten 97 Prozent signifikante Ergebnisse, bei den Wieder­holungen nur noch 36 Prozent. Was sagen Sie dazu?

Jäncke: Wir haben diese Probleme nicht nur in der Psychologie, sondern auch in anderen Gebieten. Sie stellen sich aber in manchen Psychologiedisziplinen in verschärftem Masse, weil man hier kleine Effekte misst. Da bewegen wir uns mit den Signifikanzniveaus und p-Werten (siehe Kasten) an den Grenzen der Interpretierbarkeit. Hinzu kommt ein weiterer Punkt, den man bedenken muss: Der Mensch ist ein sehr variables Wesen. Wir messen in der Psychologie keine physikalisch stabilen Einheiten, sondern Eigenschaften und -Wesenszüge von Menschen, die sich laufend verändern. Das erschwert die Messung stabiler Daten. Zudem sind wir in unserem Denken und Fühlen abhängig von den Umgebungsbedingungen, was physikalisch präzise Experimente nahezu verunmöglicht. Das ist in der Biologie nicht ganz unähnlich.

Rajendran: Ich kenne diese Studie der «Open Science Collaboration» und ihren korrespondierenden Autor Brian Nosek sehr gut; der Sozialpsychologe zählt zum wissenschaftlichen Beirat unserer Publikationsplattform «Science Matters» (www.sciencematters.io). Das Ergebnis zeigt das grundsätzliche Problem, denn von den untersuchten Studien hatten 97 Prozent ursprünglich angeblich signifikante Ergebnisse, aber die Wiederholungen bestätigten diese nur bei 36 Prozent. Was heisst das? Die Forscherinnen und Forscher haben offenbar ihre Daten zurechtgerückt, um signifikante Ergebnisse zu erzielen. Der Grund dafür ist offensichtlich: Ohne Signifikanz lassen sich Studien kaum publizieren. 

Negative Ergebnisse und unbestätigte Hypothesen lassen sich nicht «verkaufen» – ohne Signifikanz steht man als Wissenschaftler mit leeren Händen da, obwohl die Ergebnisse eigentlich interessant sein könnten. Problematisch ist dieser Publikationsdruck vor allem für junge Forschende, die zum Beispiel während ihrer Doktorarbeit dazu angehalten sind, mehrere Papers zu publizieren. Dies verführt zu Überinterpretationen und «p-hacking». Die Studie zeigt diese Dilemmata exemplarisch auf und beweist meiner Ansicht nach, wie revisionsbedürftig das Publikationssystem ist. 

Sind diese Probleme charakteristisch für die Psychologie, oder ist die Wissenschaft insgesamt vom Thema fehlender Reproduzierbarkeit betroffen?

Jäncke: Die Problematik findet sich in allen empirischen Wissenschaften, etwas weniger in den exakten Naturwissenschaften, weil physikalische Messungen weniger beeinflussbar und objektiver sind als psychologische Experimente. In der Psychologie ist das Ausmass an mangelnder Reproduzierbarkeit in den verschiedenen Disziplinen sehr unterschiedlich. 

Rajendran: Wir sehen die Problematik auch in den Life
Sciences, also in den biochemischen und molekularbiologischen Wissenschaften. Auch Zellen und ihre biochemischen Vorgänge sind variabel. In diesen Disziplinen arbeitet die Forschung oft mit bestimmten Zelllinien eines Versuchstieres, zum Beispiel in der Alzheimer-Forschung. Die Resultate gelten streng genommen nur für einen Zelltypus, aber die Versuchung ist gross, Ergebnisse auf menschliche Zellen zu übertragen. Das ist zwar eine andere Form von Reproduzierbarkeit, aber sie kommt zum Signifikanzproblem hinzu.

Krankt die Wissenschaft an der Fixierung auf den Signifikanzwert?

Jäncke: Diese Aussage würde ich bejahen: Das Publikationssystem fokussiert zu stark auf Signifikanz, hinzu kommt die Verherrlichung des p-Niveaus. Das zeigt sich zum Beispiel auch in den bildgebenden Verfahren, mit denen Hirnaktivitäten gemessen werden. Besser wäre es, wenn man sich von den p-Werten entfernen, Effekte deskriptiv berichten und damit Wiederholungsexperimente stimulieren würde.

Jäncke: Ich möchte in diesem Zusammenhang darauf hinweisen, dass Ronald Fisher seine Signifikanzanalysen im 19. Jahrhundert ursprünglich für Abweichungen bei Samenkörnern ausgearbeitet hat, die natürlich in sehr grosser Zahl vorlagen. Die heutigen Experimente müssen meist mit viel kleineren Stichproben auskommen. Die meisten statistischen Tests wurden für Fragestellungen entwickelt, die mit den zeitgenössischen Experimenten wenig zu tun haben.

Rajendran: Die Problematik unsicherer p-Werte ist zu stark mit Wissenschaftskarrieren verknüpft. Forschungsbeiträge werden nur für Projekte gesprochen, die signifikante Ergebnisse versprechen. Das verführt zu Überinterpretationen.

Wie lässt sich die Situation verbessern?

Jäncke: Was wir hier besprechen, ist den meisten Forscherinnen und Forschern bewusst – ein Umdenken findet statt. Auch in den Institutionen zur Forschungsförderung hinterfragen immer mehr Leute das heutige System, das auf Publikationen in High-Impact-Journalen und auf Signifikanzniveaus basiert. Ich erhoffe mir einiges von der Open-Science-Bewegung, also von der Offenlegung aller Daten. Diese Transparenz wird dazu führen, dass Experimente vermehrt geprüft und wiederholt werden. Im Prinzip hat mich das schon mein ehemaliger Professor gelehrt: Er gab den Ratschlag, Ergebnisse ohne interferenzstatistische Analysen – also deskriptiv – zu publizieren und mit den Kollegen zu diskutieren. Dieses Vorgehen erachte ich noch heute als richtig. 

Rajendran: Es stimmt, wir befinden uns an einem Wendepunkt, und viele Forschende haben realisiert, dass die Publikationspraxis sich ändern muss. Die Open-Science-Bewegung steht für diesen Wechsel. Gleichzeitig ist das Wissenschaftssystem träge und widersprüchlich; es fehlen die Anreize, diesen Wandel zu vollziehen. 

Einerseits sagt man jungen Forscherinnen und Forschern, sie sollen auf Reproduzierbarkeit achten und ihre Arbeiten nicht auf Teufel komm raus in High-Impact-Journalen publizieren. Andererseits wird bei Berufungen viel zu stark auf Publikationen in diesen Topjournalen gesetzt. So ist es in der Praxis schwierig, die neuen Prinzipien umzusetzen. 

Jäncke: Ich bin völlig einverstanden. Ich bin nun 60 Jahre alt und seit vielen Jahren in diesem System tätig, das nach dem Prinzip funktioniert, das mir schon als junger Forscher eingetrichtert wurde: «publish or perish». Meine Generation wurde zum Publizieren angehalten, um nicht zu sagen: gezwungen. Aber genau das müsste sich ändern.

rajendran
rajendran
«Man kann von Reproduktionskrise sprechen, aber eigentich geht es um das Publikations- und Wissenschaftssystem», sagt Lawrence Rajendran.

Herr Rajendran: Sie haben das Projekt «Science Matters»
initiiert, das alternative Möglichkeiten zur gängigen
Publikationspraxis bietet. Wie funktioniert dieses Modell?

Rajendran: Auf unserer Plattform Sciencematters.io können Forscherinnen und Forscher einzelne Experimente oder Beobachtungen publizieren und diskutieren. Es geht uns darum, experimentelle Evidenz besser abzusichern und der Community zu unterbreiten, bevor eine ganze Story daraus entwickelt wird. 

Ich bringe gerne das Beispiel von Alexander Fleming, dem Entdecker des Antibiotikums. Sein phänomenaler Befund bestand in einer einzelnen Beobachtung: dem bakterienfreien Ring um Schimmelpilze. Er isolierte weder die Substanz Penicillin, noch ging er den Ursachen dieses Phänomens auf den Grund. 

Heute wäre es undenkbar, dass eine derartige und singuläre Beobachtung publiziert würde. Topjournale wie «Nature» oder «Science» verlangen eine lückenlose Geschichte über das Phänomen, seine Hintergründe und Wirkungen. Wir sagen: Schluss mit Geschichten, wir bringen Beobachtungen und Daten – damit die Leute sie verfizieren und weiterentwickeln können. 

Können auf «Science Matters» auch negative Ergebnisse
publiziert werden oder Experimente, die nicht zum Ziel
geführt haben?

Rajendran: Natürlich. Ebenso publizieren wir auch Wiederholungen oder Reproduktionen von Studien. Das ist ansonsten fast ein Ding der Unmöglichkeit. Aber wie die «Open Science Collaboration» gezeigt hat, ist es ausserordentlich wichtig, publizierte Daten kritisch zu hinterfragen. In meinem Labor überprüfen wir Arbeiten anderer Autoren immer, bevor wir darauf aufbauend weiterforschen. 

Jäncke: Beim Thema Reproduzieren zeigt sich eine gewisse Arroganz: Wiederholungen entsprechen nicht dem Selbstverständnis der Wissenschaftlerinnen und Wissenschaftler, viele finden das zu banal. Aber das Bild des genialen Ent-deckers von einst entspricht heute auch nicht mehr der
Realität. In Zeiten von Big Data und Open Sciene ist Wissenschaft eine Unternehmung von grossen Gruppen und Konsortien geworden, die miteinander kooperieren sollten.

Sie haben bereits neue Pläne für ein weiteres Publikationsportal zum Thema Reproduzierbarkeit ...

Rajendran: Richtig, im März werden wir in Zusammenarbeit mit dem Center for Open Science mit dem nächsten Online-Journal «Matters of Reproducibility» starten, das sich ganz den Themen Reproduktionen, Statistik und Beobachtungen widmet. Es handelt sich um das erste Journal zum Thema Reproduzierbarkeit überhaupt. Es ist als Ergänzung zu «Science Matters» gedacht, wo weiterhin sowohl positive als auch negative Resultate und Beobachtungen publiziert werden können. 

Wie sind Sie auf diese Idee gekommen?

Rajendran: Die Idee entstand, als wir vergeblich versuchten, eine hochdotierte Publikation des Nobelpreisträgers Paul Greengard zu reproduzieren. Drei Leute in meinem Labor, ich selbst eingeschlossen, scheiterten beim Versuch,  und wir kamen zum Schluss, dass die postulierten Schlussfolgerungen nicht korrekt waren. Wir schickten unsere Arbeiten an «Nature» zur Veröffentlichung. Nach zweieinhalb Jahren Begutachtung lehnten sie die Publikation schliesslich ab, vermutlich wegen kritischer Kommentare durch die Peer-Review. 

Wir sagten uns, wenn sogar «Nature» die Reproduktionskrise verschärft, dann ist es dringend nötig, dass sich ein Forum – sei es online oder gedruckt – diesem Thema widmet. Daraus entstand «Matters of Reproducibility»: Es soll ein Ort sein, wo Befunde aus anderen Publikationen einer Prüfung unterzogen werden. Es soll nicht zuletzt dazu beitragen, Forschungsarbeiten zu verhindern, die auf nicht reproduzierbaren Daten aufbauen und aussichtslos sind. Damit lässt sich viel Geld sparen. 

Jäncke: Ich finde dieses Projekt extrem sinnvoll, aber ich möchte aus Sicht der Psychologie anfügen, dass die Reproduzierbarkeit auch ihre Grenzen hat. Man darf die Individualität des Menschen nicht ausser Acht lassen. Ich bin selbst immer wieder erstaunt, wie individuell unser Gehirn und unser Verhalten sind. Das setzt Experimenten zu Reproduzierbarkeit natürliche Schranken. 

Rajendran: Ich sehe da keinen Widerspruch. Geht es darum, verbindende Mechanismen der Neuropsychologie zu finden, können wir nur profitieren, wenn die Forschenden nach gemeinsamen Faktoren suchen. Das kann auch heissen, dass man keine findet, weil es sie nicht gibt. Und genau ein solches negatives Ergebnis würde dann bei uns publiziert. 

Unterstützt die Universität Zürich Ihre neuen Publikations­initiativen?

Rajendran: Die UZH zahlt die Publikationskosten von Forscherinnen und Forschern, die auf «Science Matters» publizieren, das sind rund 50 000 Franken pro Jahr. Wir erhalten zudem einen grösseren Betrag von der Velux-Stiftung. Aber das reicht nicht, ich investiere auch eigene Mittel. Wir könnten für den Betrieb der Plattformen mehr Geld brauchen. 

Wie ist die Resonanz bezüglich Ihrer Platttform in der
wissenschaftlichen Community?

Rajendran: Die Kollegen sind offen und reagieren mehrheitlich sehr positiv. Wir registrieren laufend neue Publikationen auf unserer Platttform – das Potenzial ist aber noch nicht ausgeschöpft.

Zu den interviewten Personen:

Lutz Jäncke, Professor für Neuropsychologie
Lawrence Rajendran, Professor für System- und Zellbiologie
der Neurodegeneration
Science Matters: www.sciencematters.io

Das Interview ist in der aktuellen UZH-Journal-Ausgabe Nr. 1/2018 erschienen.

Signifikanz und p-Wert

Zum Überprüfen von wissenschaftlichen Hypothesen werden meist p-Werte (Wahrscheinlichkeiten) berechnet. Ein typisches Vorgehen ist, dass der Forscher mit einer Nullhypothese arbeitet, die das Gegenteil der wissenschaftlichen Hypothese darstellt. Es wird dann ein statistischer Test mit den erhobenen Daten berechnet, der zu statistischen Prüfgrössen führt. Dabei ist der p-Wert die Wahrscheinlichkeit, das vorliegende oder ein extremeres Studienergebnis zu erhalten, wenn die Nullhypothese zutrifft. Kleine p-Werte sprechen gegen die Nullhypothese und somit für die wissenschaftliche Hypothese. Eingebürgert hat sich ein Schwellenwert von 0,05, das heisst, Studienergebnisse sollten ein Signifikanzniveau von 95 Prozent erreichen, damit sie als gesichert gelten.

Stefan Stöcklin, Redaktor UZH News

Kommentar schreiben

Die Redaktion behält sich vor, Kommentare nicht zu publizieren. Unberücksichtigt bleiben insbesondere anonyme, ehrverletzende, rassistische, sexistische, unsachliche oder themenfremde Kommentare sowie Beiträge mit Werbeinhalten.

Anzahl verbleibender Zeichen: 1000