Translation Memories der EU-Kommission jetzt frei zugänglich

Als wichtigen Teil der Initiative „Einheit Europas in Vielfalt“ unternimmt die Europäische Kommission einen weiteren Schritt in ihren Bemühungen zur Förderung der Mehrsprachigkeit. Die Kommission verfügt über eine Sammlung aus über einer Million Sätze und deren hochwertiger Übersetzung in 22 der 23 EU-Amtssprachen, zu denen auch die Sprachen der neuen Mitgliedstaaten gehören. Dieser weltweit größte Bestand in so vielen Sprachen wird nun frei zugänglich gemacht.

Diese Art von Daten ist bei Entwicklern maschineller Übersetzungssysteme hoch begehrt, deren automatische Übersetzungsprogramme von Humanübersetzungen „lernen“, wie Wörter und Sätze im Zusammenhang richtig zu übersetzen sind. Auch bei der Entwicklung anderer Sprachsoftware könnten diese Daten hilfreich sein, z. B. für Programme zur Grammatik- und Rechtschreibprüfung, Online-Wörterbücher und mehrsprachige Textklassifizierungssysteme.

Der für Mehrsprachigkeit zuständige EU-Kommissar Leonard Orban sagte hierzu: „Mit dieser Initiative möchte die Europäische Kommission die Sprachtechnologien voranbringen, die Mehrsprachigkeit fördern und die computergestützte Übersetzung einfacher, billiger und leichter zugänglich machen. Die Bürger, die den kleineren Sprachgemeinschaften angehören, werden so einen leichteren Zugang zu Dokumenten und Webseiten erhalten, die es oft nur in den häufig verwendeten Sprachen gibt.“

Janez Potočnik, der für Wissenschaft und Forschung zuständige EU-Kommissar, erklärte: „Dieser einzigartige Sprachdatenbestand trägt zur Schaffung einer neuen Generation von Softwarewerkzeugen für die Verarbeitung menschlicher Sprache bei und wird helfen, die Wettbewerbsfähigkeit der Sprachindustrie weiter zu erhöhen, die schon heute einer der am schnellsten wachsenden Wirtschaftszweige in der Europäischen Union ist.“

Die EU-Organe verfügen über weit mehr mehrsprachige Texte als jede andere Organisation, weil die EU-Vorschriften in allen 23 Amtsprachen vorliegen müssen. Ihre Übersetzungsdienste arbeiten mit 253 möglichen Sprachkombinationen und produzieren jährlich etwa 1,5 Millionen Übersetzungsseiten.

Während sich Übersetzungen englischer oder französischer Texte im Internet häufig leicht finden lassen, sind Übersetzungen aus Sprachen wie Lettisch oder Rumänisch selten und für die Kombination zweier seltenerer Sprachen praktisch unauffindbar.

Deshalb macht die Kommission dank der Zusammenarbeit ihrer Übersetzer und ihrer eigenen Forscher nun umfangreiche Sammlungen von Sätzen aus Rechtstexten über technische, politische und soziale Fragen in 22 Sprachen zugänglich. Diese Übersetzungsspeicher enthalten Sätze mit ihrer jeweiligen Entsprechung in allen anderen Amtsprachen. Nur die irischen Übersetzungen liegen noch nicht vor.

Die Freigabe dieser Sprachdaten ist ein gutes Beispiel für die offene Politik der Kommission im Interesse der Weiterverwendung ihrer Informationen. Dem ging bereits die Öffnung der EU-Dokumentendatenbank Eur-Lex und der Terminologiedatenbank IATE voraus.

Die Kommission verfügt über große Erfahrungen mit der Entwicklung mehrsprachiger Textverarbeitungsmittel und steht in Fragen der Mehrsprachigkeit an vorderster Front. So bietet sie mit ihrem „Europäischen Medienmonitor“ eine öffentlich zugängliche Website für die Suche nach Nachrichten in bis zu 35 Sprachen. Mit seinem Teil zu den Informations- und Kommunikationstechnologien unterstützt das 7. Rahmenprogramm für Forschung und technologische Entwicklung auch Forschungsarbeiten zur maschinellen Übersetzung und zu anderen sprachbezogenen Technologien.

[Text: Pressestelle EU-Kommission. Quelle: Pressemitteilung EU-Kommission, 2008-01-18.]