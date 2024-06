per Mail teilen

Die Firma Meta entwickelt seit 2022 ein KI-Modell, das auch seltene Sprachen übersetzen kann. Wie gut das funktioniert, zeigt eine neue Studie.

Der Zugang zum Internet ist ein Menschenrecht, sagten die Vereinten Nationen im Jahr 2016. Damit soll vor allem die Zensur des Internets durch autokratische Regierungen verhindert werden, aber der Zugang zum Internet hat noch eine ganz andere Ebene. Wer eine wenig verbreitete Sprache spricht, kann mit den Informationen und Möglichkeiten des Internets nichts anfangen. Hier soll Künstliche Intelligenz (KI) helfen.

Seltene Sprachen werden von den meisten KI-Modellen nicht gut übersetzt

Aktuell kommen KI-Sprachmodelle schnell an ihre Grenzen. Eigentlich sollte ChatGPT auch schon niederländisch können, aber es klappt nicht immer. Das ist bei vielen Sprachen so, die nur wenige Millionen oder sogar nur hunderttausende Menschen sprechen.

Weltweit gibt es etwa 7.000 verschiedene Sprachen. Die bekanntesten KI-Sprachmodelle beherrschen aber oft nur einen Bruchteil von 30 bis maximal 80 Sprachen. Das will ein internationales Forschungsteam im Auftrag des Facebook- und Instagram-Konzerns Meta ändern. Ihr neues KI-Modell kann mit 200 Sprachen umgehen.

Das Sprach-Modell von ChatGPT beherrscht bisher nur relativ wenige Sprachen. Insbesonders für eher seltene Sprachen oder Diaekte gibt es bislang oft keine passenden KI-Modelle. IMAGO IMAGO/Christian Ohde

Macht ChatGPT dumm?

KI-Übersetzung soll mehr Menschen einen gleichberechtigten Zugang zum Internet verschaffen

Das KI-Modell wird seit 2022 entwickelt und soll dabei helfen, dass möglichst alle Menschen weltweit gleichberechtigten Zugang zum Internet haben. Denn wer nur eine wenig verbreitete Sprache kann, profitiert auch heute im Jahr 2024 nur wenig von einem Internetzugang.

So wird das KI-Modell bereits bei Wikipedia eingesetzt, um Artikel zum Beispiel auf die afrikanische Sprache Lingála zu übersetzen. Mehr als 20 Millionen Menschen sprechen diese Sprache in Zentralafrika. Bisher sind aber nur wenige tausend Artikel auf Wikipedia übersetzt. Das soll sich durch neu entwickelte KI-Modelle ändern. Auch Dialekte könnte die KI in Zukunft besser verstehen und irgendwann sogar sprechen.

Ein neues KI-Modell von Meta soll auch Dialekte und seltene Sprachen übersetzen können. Wie gut es funktioniert, wurde jetzt getestet. IMAGO imago/Panthermedia

KI erleichtert die Entschlüsselung von Keilschrifttafeln

Durch spezielles Training soll KI künftig auch Dialekte sprechen und verstehen können

Damit KI-Modelle auch Dialekte und weniger verbreitete Sprachen in Zukunft beherrschen, wird vor allem das Training verändert. Bei den gängigsten Sprachen kann das KI-Modell auf Millionen von Textbeispielen zurückgreifen. Bei selteneren Sprachen sind es manchmal nur wenige tausend Beispiele. Diese Beispiele werden nun vor dem Training noch besser aufbereitet. Viele Texte enthalten Fehler, die nun besser entdeckt werden können.

Viel entscheidender ist aber, dass das Übersetzungsmodell trotz der neuen Sprachen insgesamt nicht schlechter wird. Bisher sind bei den KI-Modellen auch die Übersetzungen bei sehr verbreiteten Sprachen schlechter geworden, wenn die KI davor mit Datensätzen seltener Sprachen trainiert wurde. Fachleute sprechen von einer Überanpassung.

Wenn die KI sehr viele, unterschiedliche Sprachen beherrscht, kann das dazu führen, dass die einzelnen Sprachen schlechter übersetzt werden. IMAGO imago images/Imaginechina-Tuchong

Neue Feedback-Modelle eröffnen neue Möglichkeiten der KI-Übersetzung

Die KI kann dann also in der Breite mehr Sprachen, ist aber in der einzelnen Sprache ein Stück weit schwächer. Um diesen Leistungsabfall zu verhindern, wurde das Modell aufgeteilt und die selteneren Sprachen immer auf Basis der häufigeren Sprachen trainiert.

Durch neue Feedback-Modelle ließ sich das Modell immer weiter verbessern, das an einem der weltweit schnellsten Supercomputer gerechnet wurde. Aber auch der beste Computer ist auf Muttersprachler angewiesen, die zum Beispiel eine Negativliste von Schimpfwörtern und vulgären Ausdrücken erstellen.

Das KI-Modell wurde unter einer Open-Source-Lizenz veröffentlicht. Vielleicht haben irgendwann alle Menschen einen gleichberechtigten Zugang zum Internet, egal welche Sprache sie sprechen. Und es scheint wohl nur eine Frage der Zeit zu sein, bis wir uns mit jedem austauschen können.