Navigation auf uzh.ch

Suche

UZH News

Software zur Untertitelung von Filmen

Briefträger beissen Hunde selten

Computerlinguist Martin Volk von der Universität Zürich hat ein Programm entwickelt, das Filmuntertitel in andere Sprachen übersetzt. In Schweden wird es bereits kommerziell eingesetzt, hierzulande zeigt sich das Schweizer Fernsehen interessiert.
Marita Fuchs

Von der Königsdisziplin spricht man in der Computerlinguistik, wenn es um Maschinelle Übersetzungen (MÜ) geht. Denn Sprachen sind hochkomplex und sträuben sich bis heute gegen die Versuche, sie zu digitalisieren und komplett in andere Sprachen zu übertragen. «Die perfekte maschinelle Übersetzung wird es zu meiner Lebzeit wohl nicht geben», prognostiziert Martin Volk, Professor für Computerlinguistik an der Universität Zürich. Dennoch hat er eine Methode entwickelt, wie zumindest sprachlich einfach strukturierte Texte – wie Filmuntertitel – maschinell übersetzt werden können. Und das so zuverlässig, dass eine Stockholmer Firma seine Software einsetzt, um Filmuntertitel vom Schwedischen ins Norwegische und Dänische zu übersetzen.

Szene aus dem Film «Lemon Tree» von Eran Riklis. In Zukunft können Filme maschinell übersetzt werden.

Sprache statistisch erfassen

Grundlage für Martin Volks Software ist die «Statistisch-basierte Maschinelle Übersetzung» (SBMT). Dem Computer werden nicht sprachliche Regeln beigebracht, sondern bestehende Übersetzungen werden statistisch ausgewertet. Damit konzentriert sich der Computer auf das, was er am besten kann, nämlich rechnen. Nicht auf den Inhalt der Texte wird dabei geachtet, sondern auf charakteristische Wortstellungen und immer wiederkehrende Muster.

«Vergleicht man grosse Mengen schon fertiger Übersetzungen, kann man zählen, wie oft bestimmte Wörter neben anderen stehen – etwa «ich» neben «esse» im Deutschen und entsprechend «je» neben «mange» im Französischen.» So analysiere der Computer Satz für Satz, ohne sich um den Sinn zu kümmern, erklärt Volk. Irgendwann hat der Computer genug Material angehäuft, um frische Texte anzugehen, für die es noch keine Übersetzung gibt. Allein auf Basis der Erfahrungswerte sollte er dann in der Lage sein, für jede Wortkombination und jeden Satz die wahrscheinlichste Übersetzung zu errechnen, führt Volk aus.

Computerlinguist Professor Martin Volk wird für das Schweizer Fernsehen rätoromanische Sendungen mit deutschen Untertiteln versehen.

Grosses Kino zügig übersetzt

Getestet haben Martin Volk und sein Team die Software an Filmuntertiteln. Untertitel sind in der Regel nicht so komplex, wie gesprochene Sprache, da sie gegenüber den Filmdialogen um ca. 20 Prozent gekürzt werden. «Diese vereinfachte Sprache lässt sich maschinell gut übersetzen», erläutert Volk, «muss aber anschliessend von einem Übersetzer begutachtet werden.» Es habe sich gezeigt, dass der Übersetzer durch die maschinelle Übersetzung bis zu 30 Prozent seiner Arbeitszeit einspart. «In Schweden werden in der Regel alle Filme ins Norwegische und Dänische übersetzt, da lohnt sich der Einsatz unserer Software, die in Zusammenarbeit mit einer Stockholmer Untertitelfirma entwickelt worden ist.»

Nach der Euphorie das Machbare anpacken

Von der Vorstellung, Sprachen perfekt übersetzen zu können, sei man vorerst abgekommen, meint Volk. Übersetzungspannen hätten nur offenbart, was Sprachforscher schon lange wissen: Sprache ist eine hoch komplexe Angelegenheit. «Ein Mensch versteht Zusammenhänge sehr schnell und weiss sofort, was gemeint ist, wenn jemand sagt «Ich bringe Geld zur Bank». Der Computer muss erst lange tüfteln, ob das Geldinstitut oder die Gartenbank gemeint ist.»

In den achtziger Jahren setzte man hingegen grosse Hoffnungen auf die maschinelle Übersetzung. Damals arbeiteten die Entwickler und Wissenschaftler mit der Transfer-Methode. Dabei wurde zunächst die grammatische Struktur der Quellentexte analysiert, daraus wurde die semantische Struktur der Sprache abgeleitet und anschliessend in die Zielsprache transferiert. Ein Beispiel für die frühe Euphorie, mittels Computer Sprachen zu übersetzen hiess Eurotra: Die europäischen MÜ-Forscher sollten innerhalb weniger Jahre den Prototyp eines Übersetzungssystems bauen, das Texte eines begrenzten Fachgebiets von jeder Sprache der Europäischen Gemeinschaft in jede andere übersetzen kann. Als das Programm Jahr 1990 auslief, war von einem Prototypen nicht mehr die Rede.

Die härteste Nuss der MÜ wurde nicht geknackt: Auch ein maschineller Übersetzer müsste den gemeinten Sinn zumindest teilweise erfassen und nicht Ergebnisse mit unfreiwilliger Komik liefern. Beispiele sind Übersetzungen vom Deutschen ins Englische.

«The human aurochs instinct»

Bei der maschinellen Übersetzung von «Briefträger beissen Hunde selten» führt die mehrdeutige syntaktische Funktion von Subjekt und Objekt im Deutschen zu «Dogs seldom bite postmen» und auch zu «Postmen seldom bite dogs». In einem anderen Beispiel wird die Bedeutung eines Wortes falsch übersetzt: «Sie sprachen über den menschlichen Ur-Instinkt» – «You spoke about the human aurochs instinct».

Mit der statistischen Methode (SBMT), die Volk anwendet, haben Wissenschaftler und Entwickler einen neuen Ansatz für die maschinelle Übersetzung gefunden, die weniger anfällig ist für solche Fehler. Auch wenn davon keine perfekten Übersetzungen erwartet werden können, setzt zum Beispiel die Software-Firma «Google» SBMT ein, um chinesische Webseiten ins Englische zu übersetzen.

Rätoromanisch maschinell übersetzt

Martin Volk möchte jetzt seine Software in der viersprachigen Schweiz zum Einsatz bringen. Mit dem Schweizer Fernsehen steht er in Verhandlung, er will rätoromanische Sendungen mit deutschen Untertiteln versehen. Denn kulturelle Vielfalt äussere sich nicht zuletzt in einer Vielfalt von Sprachen.

Zu der Frage, ob das Schweizer Fernsehen in Zukunft mehr Untertitel auch bei Serien anbieten wird, äussert sich Michel Bodmer, Redaktionsleiter Film und Serien des Schweizer Fernsehens DRS, zurückhaltend. Laut einer Umfrage des Schweizer Fernsehens schätzen nämlich vor allem die ganz alten und die ganz jungen Zuschauer Untertitel, während die Generation der Babyboomer Synchronfassungen bevorzugen. «Das Schweizer Fernsehen SF2 wird jedoch punktuell weiterhin Originale mit Untertiteln anbieten», sagt Bodmer.

Martin Volk konzentriert sich zunächst auf die Übersetzung des Rätoromanischen. Was noch fehlt, sind die rätoromanischen Texte, mit denen er sein Programm füttern muss. «Das Bündner Kantonsparlament ist wahrscheinlich die beste Quelle, schliesslich benötigen wir grosse Textmengen für unsere statistische Analyse», meint er und freut sich auf die Herausforderung, die die Königsdisziplin ihm bietet.