Google Translate wird um 110 neue Sprachen erweitert – von Afar bis Tamazight

Google Translate
Bild: Google

Die Übersetzungsfunktion von Google Translate wird um 110 neue Sprachen erweitert, wie Google am 27. Juni 2024 mitgeteilt hat. Es handelt sich um die größte Erweiterung bisher, die das Sprachenangebot enorm vergrößert – von bisher 133 auf jetzt 243.

Zuletzt hatte Google seine maschinelle Übersetzungsfunktion im Jahr 2022 um 24 neue Sprachen erweitert. Damals kam die „Zero Shot Machine Translation“ zur Anwendung, bei der ein maschinelles Lernmodell in eine andere Sprache übersetzt, ohne jemals ein Beispiel dafür gesehen zu haben.

Außerdem wurde die 1.000-Sprachen-Initiative ausgerufen, nach der das Unternehmen KI-Modelle entwickeln will, die die 1.000 meistgesprochenen Sprachen der Welt unterstützen.

Großer Sprung dank PaLM-2-Sprachmodell – Masse statt Klasse?

Die jetzt implementierte Erweiterung um 110 neue Sprachen wurde nach Angaben von Google durch den Einsatz des großen PaLM-2-Sprachmodells möglich. Der Google Übersetzer kann dadurch jetzt weitere 614 Millionen Menschen unterstützen, die diese Sprachen als Muttersprache sprechen. In der Mitteilung heißt es:

Von Kantonesisch bis Qʼeqchiʼ – diese neuen Sprachen werden von mehr als 614 Millionen Menschen gesprochen und ermöglichen Übersetzungen für rund 8 % der Weltbevölkerung.

Einige sind große Weltsprachen mit über 100 Millionen Sprechern. Andere werden von kleinen Gemeinschaften indigener Völker gesprochen, und einige wenige haben fast keine Muttersprachler, aber aktive Bemühungen zur Wiederbelebung.

Etwa ein Viertel der neuen Sprachen kommt aus Afrika, was unsere bisher größte Erweiterung der afrikanischen Sprachen darstellt, darunter Fon, Kikongo, Luo, Ga, Swati, Venda und Wolof.

Einige der in Google Translate jetzt neu unterstützten Sprachen:

  • Afar ist eine tonale Sprache, die in Dschibuti, Eritrea und Äthiopien gesprochen wird. Von allen Sprachen bei dieser Einführung hat Afar die meisten freiwilligen Beiträge der Community erhalten.
  • Kantonesisch ist seit Langem eine der in Google Translate am meisten nachgefragten Sprachen. Da sich Kantonesisch in der Schrift oft mit Mandarin überschneidet, ist es schwierig, Daten zu finden und Modelle zu trainieren.
  • Manx ist die keltische Sprache der Isle of Man. Mit dem Tod des letzten Muttersprachlers im Jahr 1974 wäre sie fast ausgestorben. Doch dank einer inselweiten Wiederbelebungsbewegung gibt es heute Tausende von Sprechern.
  • NKo ist eine standardisierte Form der westafrikanischen Manding-Sprachen, die viele Dialekte zu einer gemeinsamen Sprache vereinigt. Das einzigartige Alphabet wurde erst 1949 ausgearbeitet. Es gibt eine aktive Forschungsgemeinschaft, die heute Ressourcen und Technologien für diese Sprache entwickelt.
  • Punjabi (Shahmukhi) ist die in perso-arabischer Schrift (Shahmukhi) geschriebene Varietät des Punjabi und die meistgesprochene Sprache in Pakistan.
  • Tamazight (Amazigh) ist eine Berbersprache, die in Nordafrika gesprochen wird. Obwohl es viele Dialekte gibt, ist die Schriftform im Allgemeinen für alle verständlich. Sie wird in lateinischer Schrift und in Tifinagh-Schrift geschrieben, die beide von Google Translate unterstützt werden.
  • Tok Pisin ist ein auf Englisch basierendes Kreol und die Lingua Franca von Papua-Neuguinea.

Wie Google Sprachvarietäten auswählt

Sprachen weisen eine immense Vielfalt auf. Es gibt regionale Varianten, Dialekte, unterschiedliche Schreibweisen. Beim Hinzufügen neuer Sprachen zu Google Translate gebe es daher viel zu bedenken, schreibt das Unternehmen. Für viele Sprachen gebe es keine Standardform, so dass es unmöglich sei, die „richtige“ Variante zu auszuwählen.

Unser Ansatz besteht darin, die am häufigsten verwendeten Varietäten jeder Sprache in den Vordergrund zu stellen. Romani ist zum Beispiel eine Sprache, die in ganz Europa viele Dialekte hat. Unsere Modelle erzeugen einen Text, der dem Südlichen Vlax-Romani, einer weit verbreiteten Online-Variante, am nächsten kommt. Es werden aber auch Elemente aus anderen Sprachen, wie Nord-Vlax und Balkan-Romani, eingearbeitet.

PaLM 2 sei ein wichtiges Puzzleteil gewesen, das dabei half, eng miteinander verwandte Sprachen, effizienter zu erlernen. Darunter befinden sich Sprachen, die dem Hindi nahe stehen, wie Awadhi und Marwadi, und französische Kreolsprachen etwa von den Seychellen oder Mauritius.

Abschließend kündigt Google an, in Zusammenarbeit mit Sprachexperten und Muttersprachlern im Laufe der Zeit noch mehr Sprachvarietäten und Rechtschreibkonventionen in Google Translate zu unterstützen.

red