DeepSpeech: Mozilla arbeitet an Open-Source-Spracherkennung

Logo Mozilla Foundation
Das Logo der Mozilla Foundation.

Der Markt für Spracherkennung wird von milliardenschweren Konzernen wie Google, Microsoft, IBM, Amazon und Apple bestimmt. Ebenfalls gut im Geschäft ist die in der Öffentlichkeit weniger bekannte, aber mehr als 13.000 Mitarbeiter beschäftigende Firma Nuance, deren Technik hinter der Spracherkennung von Apples Siri steckt. Auch die beim Bundesamt für Migration und Flüchtlinge (BAMF) eingesetzte Software zur Dialekterkennung bei illegalen Einwanderern stammt von dem amerikanischen Unternehmen Nuance.

Eine frei verfügbare Lösung zur Spracherkennung existiert bislang nicht. Das will das durch den Firefox-Browser bekannte Mozilla-Konglomerat (Foundation, Corporation, Projektgruppen) jetzt ändern, wie die Computerzeitschrift c’t in ihrer aktuellen Ausgabe berichtet.

Unter der Bezeichnung „Common Voice“ und „DeepSpeech“ hat Mozilla zwei Projekte angeschoben, mit denen eine Open-Source-Alternative zu den etablierten kommerziellen Spracherkennungssystemen entwickelt werden soll.

Diese Projektgruppen arbeiten nicht im Silicon Valley, sondern in einem Berliner Loft.

Common Voice: Datenbank mit Sprechproben

Zur Entwicklung eines Spracherkennungssystems muss zunächst eine möglichst umfangreiche Datenbank mit Sprechproben aufgebaut werden. An dieser Arbeit für das Common-Voice-Projekt kann sich jedermann per Internet beteiligen. Man kann selbst Texte einsprechen und bewerten, ob andere korrekt ausgesprochen wurden.

Wer glaubt, dazu nichts beitragen zu können, weil er einen Dialekt hat, nuschelt oder näselt, der irrt sich. Gerade solche Sprachaufnahmen sind für die Entwickler wertvoll. Nur wenn das System mit derartigen Sprachfärbungen und auch mit Hintergrundgeräuschen und einer schlechten Aufnahmequalität umgehen kann, ist es alltagstauglich.

Die vom Common-Voice-Team unter der Leitung von Michael Henretty gesammelten Sprachdaten sind der Rohstoff, der in einem zweiten Schritt der Spracherkennung im Projekt DeepSpeech verarbeitet wird.

DeepSpeech: Spracherkennung

Die Berliner DeepSpeech-Projektgruppe wird von Kelly Davis geleitet. Sie baut auf den 2014 bzw. 2015 entwickelten Spracherkennungs-Engines „Deep Speech“ und „Deep Speech 2“ (jeweils mit Leerzeichen geschrieben) des größten chinesischen Suchmaschinenbetreibers Baidu auf. Die c’t schreibt:

„Als rekurrentes neuronales Netzwerk kommt Deep Speech grundsätzlich ohne Sprachexpertise aus – es benötigt also beispielsweise keine Tabelle mit Zuordnungen von Phonemen zu Graphemen, sondern erwirbt seine Fähigkeiten ausschließlich durch überwachtes Lernen.“

Junge Projekte mit großem Entwicklungspotenzial

Common Voice und DeepSpeech ergänzen und bedingen sich gegenseitig. Deshalb arbeiten beide Entwicklergruppen in Berlin eng zusammen. Im November 2017 haben sie bereits erste Ergebnisse präsentiert.

Zwar kann die von der c’t-Redaktion detailliert auf vier Seiten beschriebene Mozilla-Lösung zurzeit noch nicht mit den kommerziellen Konkurrenten mithalten. Aber man hat sich ambitionierte Ziele gesteckt. Die Erkennungsrate soll weiter verbessert und die Zahl der Sprachen von zurzeit eineinhalb Dutzend deutlich ausgebaut werden.

Fest eingeplant ist auch eine Version für leistungsschwache Geräte. So soll Anfang 2019 eine DeepSpeech-Variante für den nur 30 Dollar kostenden Einplatinen-Computer Raspberry Pi herauskommen. Das Spracherkennungssystem soll bewusst auch lokal auf Endgeräten lauffähig sein, um die Daten nicht per Internet übertragen zu müssen. So werden Daten und Privatsphäre geschützt.

Sobald die Spracherkennungslösung ausgereift ist, soll sie auch in den Firefox-Browser integriert werden. Schon jetzt experimentieren die Browser-Entwickler bei Mozilla mit dem „Web Speech API“, das eine Sprachsteuerung und Sprachausgabe beim Surfen ermöglicht.

Weiterführende Links

[Text: Richard Schneider. Bild: Mozilla Foundation.]