Statistische Übersetzung mit Paralleltexten: Franz Josef Och mischt die MÜ-Branche auf

Mit einem relativ jungen Ansatz der maschinellen Übersetzung (MÜ) macht derzeit ein Deutscher in Kalifornien Furore. Dr. Franz Josef Och (31) ist in der Lage, innerhalb weniger Tage Übersetzungsprogramme für beliebige Sprachpaare zu entwickeln.

Och setzt auf die „statistische Übersetzung“, für die zunächst Paralleltexte ausgewertet werden. „Wir sagen dem Computer nicht, wie er übersetzen soll. Wir lassen ihn das einfach selbst lernen.“

Wichtigster Paralleltext ist die Bibel, die in 405 Sprachen komplett übersetzt wurde. Das Neue Testament steht in 1.034 und einzelne Teile in weiteren 864 Sprachen zur Verfügung. Darüber hinaus fließen möglichst viele weitere Texte in die Analyse ein, zum Beispiel mehrsprachige Veröffentlichungen der UNO und der EU.

Ein Beispiel für die Funktionsweise: Wenn der Computer weiß, dass das arabische radschul kabir auf Deutsch „großer Mann“ und radschul samin „dicker Mann“ bedeutet, schließt er daraus, dass radschul „Mann“, kabir „groß“ und samin „dick“ heißt.

Bei herkömmlichen MÜ-Systemen werden hingegen mit großem Aufwand zunächst Grammatik, Satzbau und Wortbestand der Sprachen erfasst und entschlüsselt. Daraus werden dann starre Übersetzungsregeln abgeleitet.

„Ich selbst muss von den Sprachen nicht viel wissen“, sagt Och. Die Leistung des Wissenschaftlers besteht aus den rund 10.000 Zeilen Programmcode, die festlegen, nach welchen statistischen Modellen die Paralleltexte ausgewertet werden sollen.

Och konnte sich bei Auswahlwettbewerben mit seinem System schon mehrfach gegen namhafte Konkurrenz durchsetzen. Bei einem Arabisch-Englisch- und Chinesisch-Englisch-Test eines US-Ministeriums schlug er 23 Konkurrenten aus dem Feld.

In den USA gehört die MÜ-Branche zu den Profiteuren des 11. Septembers. Nach Jahren der Zurückhaltung fließen die Subventionen wieder reichlich. Allein die Forschungsorganisation des Pentagons (DARPA, Defense Advanced Research Projects Agency) investiert dieses Jahr 22 Mio. Dollar in die Entwicklung von Übersetzungsprogrammen für Arabisch, Paschtu, Urdu, Farsi, Bengali und Chinesisch.

Och ist deshalb von der RWTH Aachen, wo er seinen Doktortitel erwarb, an die University of Southern California gewechselt. Bereits in seiner Diplomarbeit (Uni Erlangen-Nürnberg, 1998) hat er sich mit der statistischen Übersetzung befasst.

Die statistischen MÜ-Systeme können schnell und billig entwickelt werden. Sie scheinen zudem für Spionagezwecke besser geeignet zu sein als die herkömmlichen Verfahren.

Vater dieser MÜ-Variante ist Peter F. Brown, der um 1990 im Watson Research Center von IBM erste Schritte in diese Richtung unternahm. In Deutschland wurde das Konzept an der RWTH Aachen verbessert und erweitert.

Richard Schneider
Quellen: Spiegel, 2003-09-09; Information Sciences Institute der University of Southern California, 2003-09-16; Wired, 2003-06-07.