Lotsen im Datenmeer

In der Forschung werden seit jeher Daten erzeugt, gesammelt und ausgewertet. Mit der Digitalisierung ist die Menge der verfügbaren Daten jedoch sprunghaft angestigen. Auch die Möglichkeiten, Daten auszuwerten, nehmen rasant zu.
«Daten», so bringt es die Open-Science-Verantwortliche der Universitätsbibliothek Zürich, Andrea Malits, auf den Punkt, «sind heute ein wertvoller Rohstoff.» Sie können auf unterschiedlichste Weise erhoben, analysiert oder miteinander kombiniert werden und sie sind die Grundlage für selbstlernende Systeme wie KI. Darum sind sie nicht mehr nur für diejenigen Forschenden interessant, die sie sammeln und auswerten, sondern sie können auch für andere Forschungsfragen wertvoll sein. Sammeln Linguist:innen etwa Daten für Studien zur Dialektentwicklung, so könnten diese auch für Humangeograf:innen interessant sein, die Migrationsbewegungen erforschen.
FAIRe Daten
Damit Daten für andere Forschende nützlich sind, müssen sie jedoch verfügbar sein und aufbereitet werden. Das Zauberwort dazu heisst: FAIR. Das Akronym steht für vier Anforderungen, die Daten erfüllen sollten, damit sie als offene Daten der Wissenschaft verwendet werden können. Das heisst, sie müssen auffindbar (Findable), zugänglich (Accessible), bearbeitbar (Interoperable) und wiederverwendbar (Reusable) sein.
Jedes der vier Prinzipen stellt die Forschenden in der Praxis vor Herausforderungen. Die UZH hat deshalb im vergangenen Jahr ein Netzwerk von sogenannten Data Stewards ins Leben gerufen. Es verbindet Wissenschaftler:innen, die sich in ihrer Arbeit mit Fragen beschäftigen, wie Daten im Sinne der FAIR-Prinzipen aufbereitet und verfügbar gemacht werden können. Mit ihrem Wissen sollen sie anderen Forschenden helfen, sich besser im neuen Datendschungel zurechtzufinden.
![]()
Daten sind heute ein wertvoller Rohstoff.
Oft ist bereits die Auffindbarkeit eine grosse Hürde: «Die Forschungsdaten, die wir an der UZH haben, sind von hohem Wert», erklärt Malits, «aber wir können sie nicht vollständig nutzen, weil wir nicht überblicken, wo welche Daten vorhanden sind.» Gerade für interdisziplinäre Forschungsprojekte wäre es jedoch wichtig, Daten aus verschiedenen Bereichen leicht auffindbar zu machen.
Anders als bei wissenschaftlichen Publikationen, wo die UZH mit ZORA (Zurich Open Repository and Archive) ein offenes Verzeichnis mit Angaben zu allen Publikationen von UZH-Forschenden hat, gibt es keine zentrale Ablage für Forschungsdaten. Dabei gehe es nicht darum, einen einheitlichen Speicherort für die Daten selber zu schaffen, betont Malits. Hingegen wäre ein gesamtuniversitäres Verzeichnis sinnvoll, das festhält, welche Daten wo in welcher Aufbereitung vorhanden sind.
«Man sollte gute Anreize für die Forschenden schaffen, ihre Datenbestände in einem solchen Verzeichnis zu erfassen», so Malits. Denn es wäre ein zusätzlicher Aufwand, den die Forschenden leisten müssten und der ihnen oft keinen direkten Nutzen bringt. Ein Datenverzeichnis könnte auch dazu beitragen, die Forschungsleistung der UZH nach aussen zu kommunizieren.
Offenheit als Prinzip
Für die Epidemiologin Andrea Farnham vom Population Research Center der UZH sind offene Daten und die FAIR-Prinzipien eine Herzensangelegenheit. Deshalb setzt sie einen Teil ihrer Zeit dafür ein, ihre Daten für andere Forschende aufzubereiten: «Es ist wichtig, dass unsere Daten zugänglich sind, denn sie wurden schliesslich mit öffentlichen Mitteln erhoben», sagt sie. In der Praxis jedoch ist die Einlösung der Prinzipien gerade in ihrem Fall mit hohen Hürden verbunden.
Farnham ist wissenschaftliche Leiterin des Projekts SwissPrEPared, das zum Ziel hat, Ansteckungen mit dem HI-Virus und andere sexuell übertragbare Krankheiten einzudämmen. An dem Programm nehmen insgesamt 10000 Personen teil, die das Medikament PrEP erhalten, das einer HIV-Ansteckung vorbeugt. Die Teilnehmenden werden in einer begleitenden Langzeitstudie regelmässig zu ihrem Gesundheitszustand, ihrem Sexualverhalten und ihrem Drogengebrauch befragt. Ziel der Studie ist es, die Bedürfnisse und das Verhalten der Risikogruppen besser zu verstehen und Präventionsmassnahmen und die Gesundheitsversorgung entsprechend zu gestalten.
Die Daten, die im Rahmen der Studie erhoben werden, sind höchst sensibel und müssen entsprechend geschützt werden. «Weil sie sehr detailliert sind, ist es sehr schwierig, sie vollständig zu anonymisieren», erklärt Farnham. Hinzu kommen Datenschutzbestimmungen und die Vorgabe, dass Studienteilnehmende jeder Datennutzung, die über die Studie hinausgeht, zustimmen müssen.
Privatsphäre schützen
Das heisst, die Möglichkeiten, die Daten zu teilen und anderen zur Verfügung zu stellen, sind sehr eingeschränkt. «In der Theorie sind die FAIR-Prinzipien ideal», so Farnham, «in der Praxis lassen sie sich aber nicht immer umsetzen. Denn die Verpflichtung gegenüber den Teilnehmenden, ihre Privatsphäre zu schützen, wiegt schwerer.» Wer Zugang zu den Daten der Studie erhalten will, muss einen Antrag stellen, der von externen Expert:innen und einem wissenschaftlichen Ausschuss geprüft wird. Oft wird dann nur ein Teil der Daten herausgegeben. «Den ganzen Datensatz haben wir noch nie weitergegeben», erklärt Farnham.
![]()
Es ist wichtig, dass unsere Daten für andere Forschende zugänglich sind.
Auch wenn der Zugang zu den Daten direkt nicht möglich ist, so ist es Farnham doch ein Anliegen, dass die Daten auffindbar sind. «Wir können zumindest die Metadaten publizieren, die beschreiben, welche Art von Daten wir haben», erklärt Farnham. Das aber bedeutet einen zusätzlichen Effort. Denn der Inhalt der Studie wird laufend aktuellen Entwicklungen angepasst. So wurde etwa beim Ausbruch der Affenpocken (Mpox) im vergangenen Jahr der Fragebogen entsprechend ergänzt. «Wir müssen die Metadaten mindestens einmal pro Jahr anpassen, damit sie aktuell sind.»
Auf den Gedanken, die Daten über die Publikation der Metadaten auffindbar zu machen, ist Farnham erst durch das Data-Stewards-Netzwerk gekommen. «Dort habe ich gelernt, dass es Best Practice im Sinne der FAIR-Prinzipien ist, die Metadaten zu veröffentlichen.» Sie erhielt durch die Kolleg:innen im Netzwerk auch Tipps, wie die Metadaten gestaltet sein müssen, damit die Daten tatsächlich auffindbar und interoperabel, also auch für andere Studien nutzbar sind.
Vernetzung und gegenseitiges Lernen
Darüber hinaus lernte sie, wie sie den Programmiercode für die Auswertung ihrer Daten auf dem Code-Repository gitLab teilen kann. Das hat das gemeinsame Programmieren und die Qualität des Codes deutlich verbessert. «Zudem sind wir dadurch viel effizienter bei der Fehlersuche geworden», sagt sie. Das Wissen, das sie sich in ihrem eigenen Projekt angeeignet hat, gibt sie als Data Steward nun auch an andere weiter. «Viele wissen nicht, wo sie Hilfe und Unterstützung holen können bei diesen Fragen», sagt sie.
Die Vernetzung und das gegenseitige Lernen ist eines der Ziele, die die UZH mit den Data Stewards verfolgt. Dabei geht es auch darum, die Forschungs-Communities selbst zu aktivieren und die Forschenden für das Thema zu sensibilisieren. Denn viele Fragestellungen und die entsprechenden Lösungen sind spezifisch für die einzelnen Forschungsbereiche. Wie man Metadaten verfasst, grosse Datenmengen ablegt oder auf welchen Repositories man Daten publiziert – das kann je nach Disziplin sehr unterschiedlich sein.
«Letztlich ist es eine Aufgabe der Forschenden, dafür Standards zu entwickeln», sagt Malits. Die Data Stewards können jedoch eine Scharnierfunktion einnehmen zwischen den spezifischen Bedürfnissen der jeweiligen Forschungsbereiche und den Ressourcen und Hilfsangeboten, die dafür an der UZH zur Verfügung stehen.
Finanzierung als Knackpunkt
Viel läuft dabei noch über das persönliche Engagement der Data Stewards, denen wie Farnham das Prinzip von Open Science wichtig ist. Mittlerweile umfasst das Netzwerk 30 Personen und wird von Susanna Weber von der Universitätsbibliothek koordiniert. «Auf die Dauer», so sagt Malits, «müssten die Aufgaben aber institutionalisiert und auch entsprechend finanziert werden.» Nur so könnten Daten nachhaltig gespeichert und verfügbar gemacht werden.
Die Finanzierung ist aber ein Knackpunkt. Denn Forschungsprojekte haben stets eine begrenzte Dauer und damit auch eine begrenzte Finanzierung. «Für die einzelnen Forschenden gibt es wenig Anreiz, sich darüber hinaus dafür zu engagieren, dass die Daten erhalten und zugänglich bleiben», so Malits.
Aufwändige Harmonisierung
Einer, der spezifisch für das Datenmanagement zuständig ist, ist Guanghao You. Er arbeitet an der Linguistic Research Infrastructure (LiRI) der UZH für den Nationalen Forschungsschwerpunkt (NFS) Evolving Language als Datenspezialist und berät dabei die Forschenden des NFS in Fragen der Aggregierung, Auswertung und Aufbewahrung von Daten. «Meine Hauptaufgabe ist es, Daten aus unterschiedlichsten Quellen zusammenzuführen, damit wir sie im Rahmen des Projekts auswerten können», erklärt You.
In seiner eigenen Forschung befasst sich You hauptsächlich mit der frühesten Sprachaneignung bei Kleinkindern. Dazu macht seine Forschungsgruppe Aufnahmen von alltäglichen Situationen, in denen Kleinkinder mit Eltern zusammen sind. Diese Aufnahmen werden für die Auswertung transkribiert, mit strukturierten Anmerkungen und mit Angaben zu den Sprechenden und der Aufnahmesituation zusammen abgelegt.
![]()
Mit anderen über gemeinsame Strategien zu sprechen, hat mir sehr geholfen.
Daneben arbeitet You aber auch mit Datenquellen, die online frei zugänglich sind. «Häufig fehlen hier aber die Metadaten, oder sie sind unvollständig», sagt er. Das macht es schwierig, die Daten zu nutzen, wenn etwa aus Gründen der Anonymisierung Altersangaben zu den Sprechenden fehlen. Yous Gruppe befolgt zudem ein eigenes Protokoll, wie Anmerkungen, Beschreibungen und Glossare verfasst werden, und versucht dabei so nahe wie möglich an etablierten Standards aus der Linguistik zu bleiben. Manche Daten aus anderen Quellen sind jedoch gänzlich anders aufbereitet und beschrieben, sodass sie kaum direkt in die eigene Datenbasis integriert werden können.
Das Beispiel zeigt: Die Anforderung, dass Daten interoperabel sind, also von verschiedenen Forschungsgruppen genutzt werden können, ist eine hohe Hürde – selbst wenn sie auffindbar und zugänglich sind. Denn je nach Disziplin gibt es keine einheitlichen Standards, wie Daten beschrieben werden sollen, und jede Gruppe kann ihrem eigenen Protokoll folgen. «Da die Daten häufig von bereits abgeschlossenen Projekten stammen, können wir keinen Einfluss auf diese Protokolle nehmen», so You.
Für sein Projekt bedeutet dies, dass er und seine Mitarbeitenden nochmals einen erheblichen Aufwand betreiben müssen, um die Daten nutzen zu können. In wenigen Fällen, wenn You die Forschenden kennt, kann er sich mit ihnen darüber austauschen, wie sie die Informationen aufbereiten können, damit er sie einfacher nutzen kann.
Dezentrale Datenablagen
Eine weitere Herausforderung für You ist die Speicherung der Daten, denn das Netzwerk des NFS umfasst viele unterschiedliche Forschungsbreiche. Die Art und die Menge der Daten, die anfallen, sind riesig und äusserst divers. «Wie eine Datenablage all die unterschiedlichen Anforderungen abdecken kann, war für mich eine grosse Herausforderung», erklärt er.
Die Lösung dazu fand er unter anderem im Austausch mit anderen Data Stewards. «Durch sie bin ich auf die Idee gekommen, dass es gar nicht unbedingt eine einheitliche Ablage braucht», so You. Vielmehr hat er nun einen zentralen Index eingerichtet, wo alle Datenablagen und die dort gelagerten Daten verzeichnet sind. Die Forschenden selbst können so ihre Daten in den für sie passenden Repositories ablegen. Die Treffen mit den anderen Data Stewards haben You gezeigt, dass er mit seinem Problem nicht allein ist. «Mit anderen über Strategien und gemeinsame Herausforderungen zu sprechen, hat mir sehr geholfen.»
Unterschiede in den Disziplinen
Dass Forschende Daten in disziplinenspezifischen Repositorien ablegen, sei auch im Sinne der UZH, erklärt Malits. «Wenn man mit MRI-Daten aus der Medizin arbeitet, braucht es eine andere Kompetenz, als wenn man mit Textdaten forscht.»
In der Linguistik hat die UZH schweizweit eine führende Rolle eingenommen und betreibt das Language Repository of Switzerland (LaRS). Forschende von Schweizer Universitäten können dort ihre linguistischen Forschungsdaten ablegen. Dabei erhalten sie Beratung und Unterstützung von Spezialist:innen der Universitätsbibliothek und des LiRI. Zudem ist das Repository in das Europäische Netzwerk für Linguistische Forschung CLARIN eingebettet.
«LaRS ist ein erfolgreiches Pilotprojekt», so Malits. «Es heisst aber nicht, dass man nun in jeder Disziplin solche Repositories aufbauen muss.» Denn in vielen Bereichen gibt es zum Teil schon lange internationale Datenablagen, die breit genutzt werden. Dort würde es keinen Sinn machen, neue Infrastrukturen aufzubauen. «Das Modell muss sich nach den Bedürfnissen der Forschenden richten», ist Malits überzeugt.
Communities aktivieren
Das Netzwerk der Data Stewards hilft mit, solche Bedürfnisse und Lösungsmöglichkeiten mit einem Bottom-up-Ansatz breiter bekannt zu machen. «Wir haben damit eine Form gefunden, mit der wir eine grosse Hebelwirkung erreichen können», ist Malits überzeugt.
Anlässlich einer Themenwoche zum Datenschutz im Januar sei es gelungen, Know-how aus den einzelnen Communities zusammenzubringen. «Die Data Stewards haben Personen aus ihrem Umfeld aktiviert, die nicht nur an Workshops teilgenommen, sondern zum Teil auch gleich eigene Workshops organisiert haben.»
Auf gesamtuniversitärer Ebene befasst sich die Arbeitsgruppe Open Science unter der Leitung von Prorektor Christian Schwarzenegger und Prorektorin Elisabeth Stark mit den Fragestellungen rund um das Datenmanagement. Auch dort sind Vertreter:innen aller Fakultäten eingebunden, damit das Thema auch dort verankert werden kann. Das Ziel sei, so Malits, dass möglichst viele Forschende ihre Daten nach den FAIR-Prinzipien aufbereiten und zugänglich machen. Denn nur so kann der Datenschatz für möglichst viele auch Nutzen bringen.