Sprachwissenschaft

Wie Big Data die Linguistik verändert

Die Universität Zürich investiert in die Erforschung menschlicher Sprachen. In den nächsten Jahren werden im Rahmen des Projekts LiRI zahlreiche Geräte angeschafft und Labore gebaut. Mithilfe von IT-Spezialistinnen und -Spezialisten wird die Verarbeitung und Auswertung von grossen Datenmengen möglich.

Andres Eberhard

Blick in ein Forschungslabor
Blick in ein Forschungslabor
So könnte ein zukünftiges Labor aussehen, in dem EEG-Aufnahmen gemacht werden, um die Sprachverarbeitung im Gehirn genauer zu verstehen. (Bild: Marc Latzel)


Es gab Zeiten, da entwickelten Forschende von ihrem Schreibtisch aus Theorien. In der Linguistik gab man dieser Art von Wissenschaft gar einen eigenen Namen: «Armchair Linguistics», zu Deutsch in etwa «Ohrensessel-Linguistik». Das hat sich geändert. Der Arbeit im Feld und im Labor, d.h. der methodologisch kontrollierten Datenerhebung und -auswertung, kommt eine immer wichtigere Rolle zu. Was bis anhin häufig nur vermutet werden konnte, kann neu mit Daten belegt oder widerlegt werden – neuerdings mit sehr vielen Daten. Ein Beispiel: Immer wieder wird die Verrohung der Sprache im digitalen Zeitalter beklagt. «Ob und was daran stimmt, können wir aber nur herausfinden, wenn wir Millionen von Wörtern in Whats-App und SMS-Nachrichten analysieren», sagt Elisabeth Stark, Professorin für Romanische Sprachwissenschaft an der UZH. Um eine solche Datenmenge auswerten zu können, braucht es eben nicht nur einen Ohrensessel, sondern vor allem auch viel Speicherplatz und Software für die Verarbeitung von grossen Datenmengen.

Forschungsinfrastruktur von nationaler Bedeutung

Um die für die neue sprachwissenschaftliche Forschung notwendige Infrastruktur bereit zu stellen, investiert die Universität Zürich bis 2025 rund acht Millionen Franken. Damit sollen Labore gebaut, moderne Technik zum Experimentieren und Forschen angeschafft sowie mehrere IT-Spezialistinnen und -Spezialisten sowie Datenwissenschaftler angestellt werden. Wie wichtig und dringend das Projekt namens Linguistic Research Infrastructure (LiRI) ist, zeigt sich unter anderem darin, dass der Bund es Ende 2018 in die «Swiss Roadmap of Research Infrastructures 2021-2024» aufgenommen hat.

Es handelt sich also um eine Investition in die Verarbeitung von Big Data. Aber nicht nur. In den Laboren sollen auch Geräte zur Verfügung stehen, welche die Qualität von Ton- oder Videoaufnahmen massiv verbessern. Unter anderem sollen Geräte zur Aufzeichnung von Stimmen und Lippenbewegungen, Infrarotkameras, ein Ultraschallgerät und Eye-Tracking-Systeme angeschafft werden. Daneben wird auch stark in neurolinguistische Apparaturen wie z.B. EEG-Systeme investiert, um die Sprachverarbeitung im Gehirn genauer zu verstehen.

Für komplexe Experimente ausgerüstet

«Wir brauchen diese qualitativ hochwertige Grundausrüstung als Experimentierfeld», sagt Stark, die das Projekt LiRI leitet. Grössere, komplexere Experimente seien mit der jetzigen Infrastruktur bis anhin schlicht nicht möglich gewesen. Viele der neu anzuschaffenden Geräte sind auch mobil, d.h. sie können komplexe Daten vor Ort, in der natürlichen Sprachproduktion, erheben. Gesellschaftlich relevante Anwendungsfelder gibt es viele. Sie reichen von der Erforschung des Spracherwerbs von kleinen Kindern bis hin zur Analyse von Hörstörungen oder -verlust im Alter.

Schliesslich soll nicht nur die Forschung, sondern auch die Lehre von den neuen Laboren und Geräten profitieren. Denn neue Methoden der Datenerhebung, -verarbeitung und quantitativen Analyse sind wichtige Bestandteile des neu geschaffenen Mono-Masterstudiengangs «Linguistics», genauso wie in der gemeinsamen Doktorandenausbildung der Zürcher Linguistik.

Elisabeth Stark und Volker Dellwo zeigen die Skizze ihres zukünftigen Labors
Elisabeth Stark und Volker Dellwo zeigen die Skizze ihres zukünftigen Labors
Elisabeth Stark und Volker Dellwo präsentieren die Skizze ihres zukünftigen Forschungslabors. (Bild: Andres Eberhard)

Es existiert erst eine Skizze

Noch existiert LiRI erst auf dem Papier. Auf einer Skizze hat Stimmforensiker Volker Dellwo vom Institut für Computerlinguistik, der ebenfalls dem Projektteam angehört, eine mögliche Anordnung der Labore gezeichnet – die aus mehreren miteinander verbundenen Schallschutzkabinen und Kabinen zu Video- und EEG-Aufnahmen besteht.

Wo sich die neuen Räumlichkeiten befinden werden, ist derzeit noch nicht klar, ebenso wenig ihre genaue Ausgestaltung. Schon konkreter weiss man, welches Personal gebraucht wird: Ein Systemadministrator, eine Technikerin für die Labors sowie rund fünf IT-Spezialistinnen und IT-Spezialisten bzw. Wissenschaftler für die Datenverarbeitung und -auswertung. Der erste IT-Mitarbeiter wird demnächst seine Stelle antreten.

Forschung zur Sprache zusammenbringen

Geplant ist, dass die Infrastruktur interdisziplinär und auf nationaler Ebene genutzt werden soll. In der Zürcher Linguistik gibt es über 20 Lehrstühle an unterschiedlichen Instituten der Philosophischen Fakultät der UZH. Ausserhalb der UZH existieren schweizweit zahlreiche Forschunsgprojekte, die bereits Interesse an einer Zusammenarbeit mit LiRI bekundet haben. Neben Geisteswissenschaftlerinnen und Geisteswissenschaftlern interessieren sich Forschende der Psychologie, Medizin, Geografie oder Biologie für die menschliche Sprache. Auch Firmen sollen die Labore und Geräte gegen eine Gebühr nutzen können – als mögliche Kunden kommen beispielsweise Hersteller von Hörgeräten infrage.

Weil Linguistik an der UZH kein eigener Fachbereich ist, wurden in den vergangenen Jahren einige Anstrengungen unternommen, damit Forschende aus den verschiedenen Sprachen und Subdisziplinen der Linguistik zusammenkommen können. 2011 wurde das Zürcher Kompetenzzentrum für Linguistik geschaffen, drei Jahre später der Universitäre Forschungsschwerpunkt (UFSP) Sprache und Raum. LiRI sei der nächste Schritt dieser Strukturbildung, wie Volker Dellwo sagt. «Es ist ein schöner Nebeneffekt, dass das Projekt uns Linguisten näher zusammenbringt.»

Andres Eberhard ist freischaffender Journalist

Kommentar schreiben

Die Redaktion behält sich vor, Kommentare nicht zu publizieren. Unberücksichtigt bleiben insbesondere anonyme, ehrverletzende, rassistische, sexistische, unsachliche oder themenfremde Kommentare sowie Beiträge mit Werbeinhalten.

Anzahl verbleibender Zeichen: 1000