Navigation auf uzh.ch

Suche

UZH News

Crowdsourcing

Bergeweise Schreibfehler ausgemerzt

Um Scanfehler in den digitalisierten SAC-Jahrbüchern zu korrigieren, haben Zürcher Computerlinguisten ein Korrektursystem entwickelt, das übers Internet freiwillige Mitarbeitende einspannt. Ein Crowdsourcing-Projekt der besonderen Art. 
Alexandra Bröhm
Abenteuer in den Schweizer Bergen: Seit 1864 schildern Alpinisten in den Jahrbüchern des Schweizer Alpen-Club (SAC) die Bergwelt. Die interessanten historischen Dokumente sollen jetzt auch digital verfügbar sein.

Seinen dritten Platz will Manfred Hunziker nicht kampflos hergeben. Tag für Tag setzt sich der pensionierte Elektroingenieur an den Computer, öffnet ein altes Jahrbuch des Schweizer Alpen-Clubs, durchforstet den Text nach Druckfehlern und korrigiert sie.

Hunziker arbeitet an dem Projekt «Kokos» mit, das am Institut für Computerlinguistik der Universität Zürich läuft. Kokos steht für kollaboratives Korrektur-System für Texte des Schweizer Alpen-Clubs. 14'719 Fehler hat Hunziker schon verbessert. Der fleissigste Korrektor auf Platz eins bringt es sogar auf 25'745. Wer sich nun fragt, warum Hunziker das tut – für sein stundenlanges Engagement bekommt der Zürcher keinen Rappen – der denke an die Web-Enzyklopädie Wikipedia. Vor fünfzehn Jahren hätte kaum jemand für möglich gehalten, dass sich Tausende Freiwillige an den Computer setzen und ein Lexikon schreiben.

Tiefer Einblick in die Geschichte der Schweiz

Ganz so viele Freiwillige braucht Professor Martin Volk nicht. 90 Helfer sind es momentan, ein paar mehr wären ihm sehr willkommen. Der Zürcher Professor für Computerlinguistik leitet das Projekt Kokos. Ziel des Projektes ist es, die digitalisierten Jahrbücher des Schweizer Alpen-Clubs (SAC) von Scanfehlern zu befreien.

Seit 1864 gibt der Schweizer Alpen-Club (SAC) Jahrbücher heraus. Mitglieder schreiben darin über ihre Touren, geben Routen- und Ausrüstungstipps oder schildern Unfälle. Die Bände sind jeweils mehrere hundert Seiten dick und geben einen tiefen Einblick in die Geschichte der Schweiz, ihrer Berge und der Menschen, die sie besteigen (wollen). Diese Textsammlung müsste man für die Forschung erschliessen, dachten sich Martin Volk und sein Team schon 2008. «Weil es ein so umfassender Textkorpus ist, ist beispielsweise sehr interessant, wie die Sprache sich verändert hat», sagt Volk. Aber nicht nur Computerlinguisten, auch Geographen oder Kulturhistoriker hätten so einen unermesslichen Fundus an Quellenmaterial zur Verfügung.

Setzt auf die Hilfe freiwilliger Korrektoren: Computerlinguist Martin Volk.

Tadellose Jahrbücher durch die Hilfe Freiwilliger

Im Projekt «Text + Berg» hatte Volks Team die Jahrbücher eingescannt. Doch gerade bei den älteren Bänden aus dem 19. Jahrhundert kam es dabei zu Scanfehlern im Text. «Es reicht ein Staubkorn auf der Seite oder ein aussergewöhnlicher Flurname», sagt Volk. Die Software für die automatische Texterkennung ist eine handelsübliche Lösung. Rund sieben Fehler produzierte die «Optical Character Recognition» durchschnittlich pro Seite. Nur knapp zwanzig Prozent der Fehler liessen sich mit Hilfe der Autokorrektur verbessern.

«Uns war schnell klar, dass wir das ohne Hilfe nicht schaffen», sagt Volk. Alleine die Bände von 1864 bis 1900 ergaben eine 20'000 Seiten umfassende Dokumentensammlung. Vier Millionen Wörter müssten die Computerlinguisten überprüfen. Unterstützung versprachen sich die Forscher von der Crowd.

Ranglisten der Fehlersucher

Crowdsourcing ist seit einigen Jahren ein beliebtes Werkzeug, um Freiwillige über das Internet in Projekte einzubinden. «Mir macht die Arbeit einfach Spass», sagt Korrektor Hunziker. Und dass ihn das Thema interessiere, spiele auch eine wichtige Rolle. Schliesslich habe er schon alle Schweizer Gipfel bestiegen und selbst SAC-Führer verfasst. Eine finanzielle Entschädigung bekommt die Crowdsourcing-Helferschar in der Regel nicht. Häufig nehmen User teil, weil sie, wie Manfred Hunziker, irgendwie thematisch, ideell oder biographisch mit den jeweiligen Themen verbunden sind.

«Beim Crowdsourcing ist es wichtig, die Community zu pflegen und zu motivieren», sagt Volk. Angespornt werden die Helfer durch Elemente, die sich Volks Team aus Computerspielen leiht. Gamifikation nennt man diesen Trend und setzt dabei beispielsweise auf Ranglisten, auf denen die Crowdsourcer miteinander konkurrenzieren.