Google und Franz Josef Och gewinnen MÜ-Wettbewerb des NIST für Chinesisch und Arabisch

Das zum US-Wirtschaftsministerium gehörende National Institute of Standards and Technology (NIST) führt regelmäßig einen Wettbewerb für maschinelle Übersetzungen (MÜ) durch, bei dem es darum geht, Texte aus dem Arabischen und Chinesischen ins Englische zu übersetzen („NIST 2006 Machine Translation Evaluation, MT-06“).

Insgesamt 40 Universitäten und Unternehmen aus den USA, Großbritannien, Deutschland, Ägypten, China, Irland, Italien, Spanien, Kanada und Japan nahmen 2006 daran teil. Die deutsche MÜ-Forschung wurde von der RWTH Aachen und der Universität Karlsruhe vertreten. Die Saarbrücker DFKI GmbH hatte sich ebenfalls angemeldet, sprang aber wieder ab.

Dieses Jahr hat Google mit seinem zukunftsweisenden MÜ-System gewonnen. Es kennt die beteiligten Sprachen nicht, sondern wertet Paralleltexte statistisch aus. Bei fast allen 36 Übersetzungsaufgaben fuhr Google den Sieg ein. Bester deutscher Teilnehmer war die RWTH Aachen, die meist unter den ersten vier zu finden war. Die auf Vokabel- und Grammatikwissen basierenden MÜ-Systeme konnten sich nicht durchsetzen.

Warum hat ausgerechnet Google gewonnen und nicht die Eierköpfe der internationalen Eliteunis? Google konnte MÜ-Spitzenleute wie den Deutschen Franz Josef Och an sich binden, der zuvor an der RWTH Aachen und der University of Southern California in Los Angeles wirkte. An der Uni konnte Och nur mit wenigen Dutzend Rechnern arbeiten, Google stellte ihm mehrere Tausend zur Verfügung. Und auch das Paralleltextarchiv des Suchmaschinenbetreibers ist wesentlich umfangreicher als das jeder Universität.

Bei der Bewertung der Ergebnisse hat das NIST die Übereinstimmung mit qualitativ hochwertigen Übersetzungen gemessen, die von Berufsübersetzern erstellt wurden. Im besten Fall ergab sich eine Ähnlichkeit von 50 Prozent – auch Google liefert also keine anständigen Übersetzungen, sondern nur den von allen MÜ-Systemen bekannten Schrott.

Auf Richtigkeit und Schönheit kommt es in diesem Fall aber gar nicht an. Beim Praxiseinsatz dieser Systeme geht es den Amerikanern nicht darum zu übersetzen, sondern darum, Nadeln im Heuhaufen zu finden. Große Textmengen sollen schnell nach bestimmten Schlüsselwörtern und potenziell interessanten Inhalten durchsucht werden. Die Texte, in denen man fündig geworden ist, werden dann „von Hand“ richtig und gut übersetzt.

Die Wahl der Textsorten (Meldungen von Nachrichtenagenturen, Diskussionsbeiträge in Newsgroups, Meldungen von Fernseh- und Radiosendern) und die Ausgangssprachen zeigen, wer automatisiert bespitzelt werden soll: die arabische Welt als Terrorherd und unverzichtbarer Erdöllieferant sowie China als kommende Supermacht. Naive Journalisten mutmaßen hingegen, man habe Arabisch und Chinesisch nur deshalb für den Wettbewerb ausgewählt, weil es sich dabei um „besonders schwierige Sprachen“ handele.

Mehr zum Thema