Schweizer Forschungsprojekt: Maschinelles Übersetzen über die Satzgrenze hinaus

Die Algorithmen der maschinellen Übersetzung verarbeiten Texte Satz für Satz. So entgeht ihnen ein Großteil des Kontexts, was zu Übersetzungsfehlern führt. Ein vom SNF unterstütztes Projekt hat nun einen Ansatz entwickelt, der es möglich macht, Texte stärker als Ganzes zu erfassen.

Die vom Schweizerischen Nationalfonds (SNF) unterstützten Forscher haben einen neuen Weg zur Verbesserung maschineller Übersetzungstools gefunden. Ein solches Tool ist auch Google Translate, ein System, das täglich rund 100 Milliarden Wörter von einer Sprache in eine andere überträgt.

Was die Informatiker und Sprachwissenschaftler, die an diesem Projekt mitarbeiten, erstmals zeigen konnten: Übersetzungstools werden besser, wenn man die künstliche Intelligenz dazu bringt, über die satzweise Verarbeitung hinaus Informationen zu berücksichtigen, die an anderen Stellen im Text stehen.

Ihr Ansatz findet inzwischen weltweit Beachtung. Am 3. April 2017 stellen die Wissenschaftler ihre jüngsten Ergebnisse im Rahmen einer Konferenz der Association for Computational Linguistics in Valencia (Spanien) vor.

Die Maschine übersetzt ohne Textverständnis

„Maschinelle Übersetzungstools verstehen nicht wirklich den Sinn der Texte, die sie verarbeiten“, erklärt Andrei Popescu-Belis, Projektleiter und Leiter der Natural Language Processing Group im Forschungsinstitut IDIAP in Martigny (Wallis). Sie wenden statistische Regeln an, um Inhalte von einer Sprache in eine andere zu übertragen. Dabei gehen sie Satz für Satz vor. Allerdings fehlen den einzelnen Sätzen oft Informationen, die für ihre korrekte Übertragung wichtig sind. Die Tools müssten daher auch Dinge berücksichtigen können, die an anderen Stellen im Text stehen.“

Fehlerquelle: Pronomen, die auf Textteile in anderen Sätzen Bezug nehmen

Um ihre Annahme zu belegen, haben sich die Forscher insbesondere mit den Pronomen beschäftigt – kleinen Wörtern, wie „er“ oder „diese“, die auf andere Textteile verweisen. Da diese Bezugswörter oft ausserhalb des zu übersetzenden Satzes stehen, machen die Übersetzungstools viele Fehler.

Popescu-Belis nennt ein einfaches Beispiel aus dem Französischen, das sogar ausgeklügelte Tools in die Irre führt: „Meine Tante hat eine tolle Limousine gekauft. Sie ist aber nicht so schön.“ Google Translate macht daraus im Englischen: „My aunt has bought a great sedan. But she is not so beautiful.“ Das Tool übersetzt „sie“ mit „she“. Da sich dieses Pronomen aber nur auf Personen weiblichen Geschlechts bezieht, versteht der englische Leser, dass „meine Tante“ „nicht sehr hübsch“ ist.

Das Tool wird in die Irre geführt, weil es weiss, dass das Attribut „nicht sehr hübsch“ sich häufiger auf Personen als auf Gegenstände bezieht. Stünde an seiner Stelle „rostig“ oder „defekt“ – also ein Begriff, der sich in der Regel auf Gegenstände bezieht, wären die Chancen für die korrekte Übersetzung „it“ grösser.

Um ein passendes Ergebnis zu erhalten, hätte das maschinelle Übersetzungstool Informationen heranziehen müssen, die im ersten Satz enthalten sind. Das ist grob, was das Tool der Forscher des IDIAP leistet, das sie in Zusammenarbeit mit den sprachwissenschaftlichen Fachbereichen der Universitäten Genf und Utrecht (Niederlande) sowie dem Institut für Computerlinguistik der Universität Zürich entwickelt haben.

Selbstlernende Techniken analysieren vorangehende Sätze

Die Wissenschaftler setzen in erster Linie selbstlernende („machine learning“) Techniken ein. Bei jedem Versuch lassen sie die Algorithmen Hunderte von Parametern abgleichen, die hinzugefügt oder entfernt werden, bis sich das Ergebnis verbessert. „Im Prinzip geben wir dem System an, wie viele der voranstehenden Sätze es in welcher Weise analysieren muss. Dann testen wir es unter realen Bedingungen.“

Fehlerquote sinkt

Laut Popescu-Belis sind die Ergebnisse vielversprechend. Bei Sprachpaarungen wie Französisch-Englisch oder Spanisch-Englisch führen Pronomen die maschinellen Übersetzungstools in rund der Hälfte aller Fälle in die Irre. „Indem wir das Tool zwingen, auch Informationen zu berücksichtigen, die außerhalb des gerade übersetzten Satzes stehen, können wir die Fehlerquote inzwischen auf 30 Prozent senken“, sagt der Wissenschaftler.

Für die Forscher geht die Herausforderung weit über die Problematik der Pronomen hinaus: Weitere Übersetzungsprobleme, die sich im Wesentlichen nur lösen lassen, wenn der Text nicht in einzelnen Sätzen, sondern in seiner Gesamtheit betrachtet wird, sind beispielsweise die Zeitenfolge, die Auswahl der passenden Terminologie und die richtige Sprachebene.

Google wirbt Mitarbeiter des Projekts ab

Auch wenn die von Popescu-Belis und seinen Kollegen entwickelten Techniken noch nicht für die breite Anwendung ausgereift sind, haben sie doch das Interesse der Akteure in diesem Bereich geweckt.

„Unsere Arbeit hat gezeigt, dass das maschinelle Übersetzen sich von der reinen Satz-für-Satz-Übertragung lösen muss. Was uns besonders freut: Drei an diesem Projekt beteiligte Nachwuchsforscher arbeiten nun bei Google in Zürich zu diesem Thema. Das zeigt, wie gross das Interesse an unserem Ansatz ist.“

[Text: SNF. Quelle: Pressemitteilung SNF, 2017-04-03. Bild: IDIAP.]