06.02.2020 Phonetik

Fänger der Stimmen

Unsere Stimme ist so individuell wie unser Aussehen. Der Phonetiker Volker Dellwo entschlüsselt, was sie auszeichnet und er entwickelt Klone von Stimmen.

Autor: Simona Ryser

Volker Dellwo ist ein Stimmenfänger. Neulich lauschte er der Stimme des ehemaligen Speakers des britischen Unterhaues, John Bercow, als dieser bei einem Vortrag an der Universität Zürich sprach. Dellwo, Professor für Phonetik am Institut für Computerlinguistik der Universität Zürich, interessiert sich für die Einzigartigkeit von Stimmen. Wie kommt es, dass wir gewisse Stimmen sofort erkennen? Denken wir etwa an Barack Obama, Angela Merkel oder Steve Jobs, haben wir sie gleich im Ohr.

Menschen wollen durch ihre Sprechweise erfasst werden, ja sie konstruieren gar ihre Identität mit stimmlichen Wiedererkennungsmerkmalen, sagt Dellwo. Auch der britische Parlamentssprecher John Bercow setzte seine Stimme bewusst ein und rief mit unverwechselbarem Klang «Ooorder! Ooorder!», wenn es im House of Commons wieder hoch zu und her ging. Es ist wohl die offensive Lippenrundung, die Bercows speziellen Sound ausmacht, vermutet Dellwo.

Einst hatte die Phonetik den Ruf eines Orchideenfachs. Seit der Digitalisierung aber sind phonetische Befunde an allen Ecken und Enden gefragt: Die smarte Welt mit ihren Robotern braucht gute Spracherkennungssysteme, Banken, Post und andere Firmen setzen bei der Telefonberatung mehr und mehr auf die biometrische Authentifizierung anhand automatischer Stimmerkennung, und auch in der Forensik ist die Phonetik gefragt, wenn die Polizei auf Verbrechersuche ist und die Stimme von Verdächtigen analysieren will.

Die Kieferpartie einer Stimme

Volker Dellwo sitzt an seinem schmalen Bürotisch. Seine Stimme hebt sich, moduliert die Tonalität, wird lauter und wieder leiser. Dellwo, Mitte vierzig, gross gewachsen, längliche Kopfform, tiefliegende Augen. Der Klang einer Stimme ist bedingt durch die individuelle Anatomie: die Grösse des Kehlkopfs, die Kiefergrösse, die Länge und Breite der Stimmbänder, die Zungenform, die Halslänge, die Schädelgrösse. Die ausströmende Atemluft versetzt die Stimmlippen in Schwingung, dort entsteht die Stimme und wird im Rachen-, Mund- und Nasenraum, dem sogenannten Vokaltrakt, mit Hilfe von Zunge, Mund und Gaumen zum Klang geformt. Tatsächlich lässt sich aufgrund eines Stimmklangs auf die Anatomie des Sprechers schliessen. Auch wenn das noch Zukunftsmusik ist – Dellwo ist daran, ein System zu entwickeln, das Phantombilder der Kieferpartie einer Stimme entwerfen kann.

Volker Dellwo zischt leicht bei ch und sch – vermutlich wegen der moselfränkischen Färbung. Der Phonetiker ist in Trier aufgewachsen. Dort, an der Uni, entdeckte er, nach einem Abstecher in die Anglistik und die Germanistik, die Phonetik. Ihn interessierte an der Sprache vor allem das Musikalische und Akustische. In Bonn und Jena setzte er seine Studien fort. Dellwo lacht verschmitzt. Er ist immer schon ein bisschen aus der Reihe getanzt.

Sein Studium finanzierte er sich mit Musizieren. Er spielte in einer Folk-Band, mal blies er die Flöte, mal den Dudelsack und tourte durch ganz Deutschland. Er lacht. Doch, doch, er dudle noch immer, wenn auch mehr im Geiste.
Auf dem Whiteboard sind Räume skizziert. Pläne für ein professionelles Aufnahmestudio. Für die Entwicklung der Stimmerkennungssysteme der Zukunft müsse ein Quantensprung geschehen. Bisher wurden sprecherspezifische Merkmale in der Phonetik vernachlässigt, sagt Dellwo. Um die Stimmerkennungssysteme fit zu machen für das smarte Zeitalter, sollen neuronale Netze nun die Varietät und Vielfalt der menschlichen Stimme einfangen und begreifen, erklärt der Phonetiker.

Tatsächlich müssen unsere künstlich-intelligenten Gefährten noch einiges lernen. Menschen sind in manchen Situationen noch ungleich besser bei der Stimmerkennung als Maschinen, gerade wenn jemand verstellt spricht. «Siri, Alexa & Co. haben wenig Sinn für Humor und Ironie. Leicht können wir sie austricksen, wenn wir in weinerlichem Tonfall jammern, wie gut es uns gehe», sagt Dellwo. Auch eine verschnupfte Stimme kann für die Spracherkennung ein Problem sein.

Dellwo richtet sich auf. Er erzählt von einem erstaunlichen Experiment, seine Stimme nimmt Fahrt auf, sie wird eindringlich, verbindlich, die Pausen setzt er prägnant. Damit ein Stimmerkennungssystem funktioniere, werde ein Computer zuerst trainiert und lernt eine Stimme kennen, erklärt er das Experiment. Danach soll der Computer die Stimme wiedererkennen – eine Herausforderung, klingen wir doch je nach Situation sehr unterschiedlich.

Spricht eine Mutter beispielsweise mit ihrem Baby, nimmt ihre Stimme eine unglaubliche Vielfalt an Ton-, Melodie- und Rhythmusvarianten an. Dellwo hat nun festgestellt, dass Computer, die zuerst mit einer babygerichteten Stimme trainiert wurden, auch an Erwachsene gerichtete Stimmen besser erkennen können. Das ist kein Zufall, sagt Dellwo. Vielmehr, so seine These, ist es von der Evolution so angelegt, «dass das Baby die Stimme der Mutter immer, in jeder Situation und in jeder Variante erkennen soll. Deshalb führt diese ihre Stimme in ihrer ganzen Bandbreite vor.»

Stimmenvergleich für die Polizei

Können denn Stimmen die Identität einer Person verraten wie ein Fingerabdruck oder die DNA? Dellwo arbeitet schon seit längerem mit der Zürcher Polizei zusammen. Zum einen erstellt er anhand forensischer Analysen Gutachten, wenn es um einen Stimmenvergleich geht. Handelt es sich beim Angeklagten und beim Verdächtigen um dieselbe Person? Eine eindeutige Identifizierung ist aber nicht möglich. Keine Biometrie - auch nicht Fingerabdruck oder DNA - gewährt eine absolute Erkennungssicherheit, sagt Dellwo. Liegen gute Vergleichsaufnahmen vor, ist jedoch eine relativ präzise Einschätzung möglich. Genauso hilfreich für die Polizei sind Stimmanalysen, um einem Täter auf die Spur zu kommen. Für die Täterprofilbildung geben herausgefilterte Merkmale wie etwa Lispeln, Schnalzen, Dialekt oder dialektale Färbung, der Soziolekt – er kann die Zugehörigkeit zu einer gesellschaftlichen Gruppe verraten –, wertvolle Hinweise auf die Herkunft einer Stimme.

Im Fall des IS-Terroristen «Jihadi John», der vermummt vor laufender Kamera wiederholt Geiseln hingerichtet hatte, kam der entscheidende Hinweis für die Fahndung von forensischen Phonetikern, die aufgrund der Stimme des Täters auf seine Herkunft und sein näheres Umfeld schliessen und ihn so identifizieren konnten.

Voice-Fake der Zukunft

Auch im zivilen Bereich wird die computergestützte Stimmanalyse immer wichtiger. Unlängst haben Swisscom und Postfinance die automatische Stimmerkennung eingeführt, um ihre Kunden am Telefon schnell zu identifizieren. Dabei vergleicht das System die einmal registrierte Stimme mit der aktuellen Stimme des Kunden. Doch was, wenn der Kunde heiser ist? Der Berater wird, selbst wenn das System den Kunden erkannt hat, weiterhin zusätzlich noch einige Sicherheitsfragen stellen, um einen Missbrauch zu verhindern.

Beim Stimmenklonen ist die Entwicklung weiter. Gemeinsam mit Neurowissenschaftlern tüftelt Volker Dellwo an einem Stimmenklon. Im Zeitalter von Social Media ist genügend Stimmmaterial vorhanden, um daraus ein künstliches Stimmprofil zu schaffen. Doch interessant wird es, wenn der Klon spricht. Dellwo und die Forscher wollen herausfinden, was es ausmacht, dass eine synthetische Stimme nicht mehr als künstlich wahrgenommen wird. Sicher ist, in der smarten Welt wird Voice-Fake wie heute Photoshop zum Alltag gehören.

Dellwos Stimme ist nun etwas gesunken, sie hat an Tempo verloren und klingt einen Tick ruhiger. Er schwärmt von seinem Hausboot, das zurzeit in der Nähe von Saarbrücken in der Saar liegt. Neben der Bürotür hängt ein Bild. Das Boot ist weissblau gestrichen, innen mit viel Holz ausgebaut. Es gebe dort immer etwas zu werkeln. In der Schweiz hatte Dellwo keinen Anlegeort gefunden. Bevor er an die Universität Zürich ans Institut für Computerlinguistik kam, arbeitete er fast zehn Jahre am University College London als Lecturer. Dort hatte er im Nordosten von London auf dem River Lea auf seinem Hausboot gelebt.

Bald will er seine schaukelnde Zweitwohnung wieder in die Nähe holen, nach Strassburg, wo sie schon mehrere Jahre gelegen hat. Die Stimmanalysen wird er allerdings wohl auch in Zukunft nicht auf dem Rhein-Rhone-Kanal durchführen. Dort lauscht er dann einfach dem Plätschern des Wassers, wenn die Ohren mal eine Auszeit brauchen.

Simona Ryser, freie Journalistin

UZH News – Innovation

Alle Artikel anzeigen

Bereichsnavigation

Hauptnavigation

Fänger der Stimmen

Die Kieferpartie einer Stimme

Stimmenvergleich für die Polizei

Voice-Fake der Zukunft

UZH News – Innovation

Brutkasten für Ideen

Vom Labor auf den Markt

Smartwatch hilft bei Long Covid

Operationssaal der Zukunft

Weiterführende Informationen

Weitere Informationen