Dolmetschsoftware nutzt erstmals Deep Neural Networks und behält Originalstimme bei

Microsofts Forschungsbeauftragter Rick Rashid (Bild rechts) hat am 25.10.2012 auf einer Konferenz in China eine neuartige Software zur Spracherkennung und Verdolmetschung präsentiert. Diese soll nicht nur die Aussage eines Sprechers aus dem Englischen ins Chinesische übertragen, sondern die Verdolmetschung auch mit der Originalstimme des Sprechers ausgeben.

Laut Microsoft werden mehrere Stunden umfassende Sprachaufzeichnungen eines Chinesischsprechenden benötigt. Die Stimme des zu übersetzenden Sprechers wird etwa eine Stunde lang aufgenommen, bevor mit einer Korrelation der Daten begonnen werden kann.

Deep Neural Networks statt verborgener Markow-Ketten – der Durchbruch?

Eine deutliche Ergebnisverbesserung konnte mit einem Wechsel des Spracherkennungskonzepts erreicht werden. Herkömmliche Verdolmetschungssoftware modelliert Sprache als verborgene Markow-Kette. Dies bedeutet, dass für Vorhersagen auf Trainingsdaten zurückgegriffen wird.

Die Technik, die Microsoft nun allerdings verwendet, wird Deep Neural Networks (DNN) genannt. Sie ist in Kooperation mit der Universität Toronto erarbeitet worden und verfolgt einen neuen Ansatz: Die DNN nutzt Gehirnströme, um die Spracherkennung zu verbessern.

Fehlerquote um 30 % reduziert, aber für Praxiseinsatz unbrauchbar

Nach Angaben von Rashid produziere Microsoft nun mit DNN rund 30 Prozent weniger Fehler als mit der Markow-Modellierung. Statt alle vier bis fünf Wörter irre sich das System jetzt nur noch alle sieben bis acht Wörter:

While still far from perfect, this is the most dramatic change in accuracy since the introduction of hidden Markov modeling in 1979, and as we add more data to the training we believe that we will get even better results. […]

The results are still not perfect, and there is still much work to be done, but the technology is very promising, and we hope that in a few years we will have systems that can completely break down language barriers.

In other words, we may not have to wait until the 22nd century for a usable equivalent of Star Treks universal translator, and we can also hope that as barriers to understanding language are removed, barriers to understanding each other might also be removed. The cheers from the crowd of 2000 mostly Chinese students, and the commentary thats grown on Chinas social media forums ever since, suggests a growing community of budding computer scientists who feel the same way.

Naive Begeisterung bei Computerfreaks – naive Furcht bei Dolmetschern

Nachrichten wie diese werden bei Computerfreaks stets mit naiver Begeisterung und unter manchen Sprachmittlern mit naiver Furcht aufgenommen. Dabei weist Microsoft selbst auf die Unzulänglichkeiten – um nicht zu sagen die Unbrauchbarkeit – des Systems hin („still far from perfect“, „still much work to be done“).

Übersetzungsfehler „alle sieben bis acht Wörter“ sind für Übersetzer und Dolmetscher vollkommen inakzeptabel. Die Berufsgruppe ist bestrebt, fehlerfreie Arbeitsergebnisse abzuliefern und konnte diesem Anspruch bereits vor 5.000 Jahren im diplomatischen Dienst am Hof der Pharaonen gerecht werden.

Zu welchem Imageschaden der blinde Glaube an die Versprechungen von Dolmetschsystemen führen kann, musste im September 2012 erst die baden-württembergische Staatsregierung erfahren. Sie ließ eine Rede des französischen Präsidenten François Hollande von einem „halbautomatischen Synchronsystem“ untertiteln, blamierte sich damit vor den in großer Zahl anwesenden Spitzendiplomaten und Ministern des Nachbarlandes und machte sich zum Gespött der französischen Medien:

25.9.2012: Baden-Württemberg kann alles – außer Dolmetschen: Blamage mit halbautomatischem Synchronsystem

Womöglich handelte es sich gar um genau jenes System, das Microsoft in Zusammenarbeit mit der Universität Toronto entwickelt hat. In Ludwigsburg hieß es damals, es sei ein „kanadisches“ System verwendet worden.

Weiterführende Links

25.10.2012: YouTube-Video der Präsentation von Rick Rashid (9 Min.)
08.11.2012: Microsoft Research shows a promising new breakthrough in speech translation technology (Beitrag in Microsofts TechNet-Blog)

[Text: Jessica Antosik. Quelle: zdnet.de, 12.11.2012; blogs.technet.com, 8.11.2012. Bild: D.Begley, Lizenz: cc-by-2.0.]