Uni Zürich: Auch bei Kneipenlärm erreicht automatische Spracherkennung menschliches Niveau

Papa Joe's Jazzlokal, Köln — Auch in geräuschvoller Umgebung wie hier in Papa Joe's Jazzlokal in Köln erreichen moderne Spracherkennungssysteme eine beeindruckende Präzision. - Bild: Richard Schneider

Wer kann Sprache besser erkennen: Mensch oder Maschine? Auch in geräuschvoller Umgebung erreichen moderne Spracherkennungssysteme inzwischen ein Leistungsniveau, das teilweise sogar das von Menschen übertrifft. Doch während Maschinen riesige Mengen an Sprachdaten benötigen, eignen sich Menschen vergleichbare Fähigkeiten in vergleichsweise sehr kurzer Zeit an.

Mensch nicht mehr weit überlegen

Die automatische Spracherkennung (Automatic Speech Recognition, ASR) hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, insbesondere bei global häufig verwendeten Sprachen wie Englisch. Während man noch vor 2020 davon ausging, dass der Mensch mit seinen Spracherkennungsfähigkeiten automatischen Systemen weit überlegen ist, zeigen einige aktuelle Systeme eine durchaus vergleichbare Leistung.

Ziel der Weiterentwicklung der ASR war, die Fehlerrate zu minimieren, unabhängig davon, wie gut Menschen in der gleichen Geräuschumgebung abschneiden. Denn auch Menschen erreichen in geräuschvollen Umgebungen keine perfekte Genauigkeit.

Kooperation der Univeritäten Zürich und Cambridge

In ihrer aktuellen Studie verglich die Computerlinguistin Eleanor Chodroff vom Institut für Computerlinguistik der Universität Zürich gemeinsam mit ihrer Kollegin Chloe Patman von der Cambridge University die Spracherkennungsleistung zweier beliebter Systeme – «wav2vec 2.0» von Meta und «Whisper» von OpenAI – direkt mit britischen Muttersprachlern. Sie testeten die ASR-Systeme unter Bedingungen wie sprachähnlichem Rauschen oder Kneipenlärm, jeweils mit und ohne Gesichtsmaske aus Baumwolle.

Neuestes OpenAI-System besser – mit einer Ausnahme

Die Ergebnisse zeigten, dass Menschen beiden ASR-Systemen überlegen waren. Allerdings übertraf das neueste OpenAI-System „Whisper large-v3“ die menschliche Leistung in allen getesteten Bedingungen deutlich. Außer bei realistischem Kneipenlärm, wo es aber mit der menschlichen Leistung mithalten konnte.

„Whisper large-v3“ bewies damit seine Fähigkeit, die akustischen Eigenschaften von Sprache zu verarbeiten und sie erfolgreich einem Satz zuzuordnen. „Dies war beeindruckend, als die getesteten Sätze aus dem Zusammenhang gerissen wurden und es auch schwierig war, ein Wort aus den vorhergehenden Wörtern vorherzusagen“, erklärt UZH-Expertin Eleanor Chodroff.

Gigantische Mengen an Trainingsdaten benötigt

Ein genauerer Blick auf die ASR-Systeme und ihre Trainingsmethoden zeigt, wie bemerkenswert die menschliche Leistung nach wie vor ist. Beide getesteten Systeme basieren auf Deep Learning, aber das leistungsstärkste System „Whisper“ benötigt immense Mengen an Trainingsdaten.

Während „wav2vec 2.0“ von Meta mit 960 Stunden englischer Sprachdaten trainiert wurde, griff das Standardsystem von „Whisper“ auf mehr als 75 Jahre Sprachdaten zurück.

Das System, das die menschlichen Fähigkeiten tatsächlich übertraf, nutzte sogar mehr als 500 Jahre Sprachdaten. „Menschen erreichen diese Leistung in nur wenigen Jahren“, betont Chodroff. „Ausserdem bleibt die automatische Spracherkennung in fast allen anderen Sprachen weiterhin eine grosse Herausforderung.“

Mensch und Maschine machen unterschiedliche Fehler

Die Studie zeigte auch, dass Menschen und ASR-Systeme unterschiedliche Fehler machen. Englische Hörer bildeten fast immer grammatikalisch korrekte Sätze, schrieben aber häufig Satzfragmente, anstatt zu versuchen, für jeden Teil des gesprochenen Satzes ein geschriebenes Wort zu liefern.

„wav2vec 2.0“ hingegen produzierte unter schwierigsten Bedingungen häufig Kauderwelsch. „Whisper“ lieferte zwar grammatikalisch korrekte Sätze, neigte aber dazu, Lücken mit völlig falschen Informationen zu füllen.

In einem Setting „Kneipenlärm mit Blasmusik“ dürften sowohl Mensch als auch Maschine an ihre Grenzen stoßen. Man versteht allenfalls noch das, was direkt neben einem gesagt wird. (Video: Richard Schneider)

Weiterführender Link

Chloe Patman, Eleanor Chodroff: „Speech recognition in adverse conditions by humans and machines“, in: JASA Express Lett. 4, 115204 (2024). DOI: https://doi.org/10.1121/10.0032473