Sprachverarbeitung: Sorben bauen sich Machine-Learning-Übersetzer selbst
Großen IT-Unternehmen fehlt oft das Interesse zur Unterstützung kleiner Sprachen. Dank Deep Learning helfen sich die Sorben nun selbst.
Diese drei Worte waren der Durchbruch: "Ja sym doma" - mit dem Erlernen dieses Satzes hat die Geschichte des ersten digitalen sorbischen Übersetzungsprogramms begonnen. "Ich bin zu Hause" überträgt der virtuelle Dolmetscher in Echtzeit ins Deutsche. Nach zwei Jahren Projektarbeit ist Sotra nun online gegangen. "Wir haben eine große Vision, dass mit technologischer Hilfe Menschen in der Lage sind, ihre Muttersprache zu sprechen, auch wenn Leute dabei sind, die kein Sorbisch können. Wir setzen gerade die einzelnen Bausteine dieser Vision zusammen", sagte Jan Budar, Direktor der Stiftung für das sorbische Volk, bei der Vorstellung der digitalen Plattform am Montag.
Sotra ist die Abkürzung für Sorbian Translator. Dahinter stehen 200.000 obersorbisch-deutsche Satzpaare aus unterschiedlichen Lebensbereichen mit reichhaltigem Vokabular und vielfältigen grammatischen Formen. Doch das ist erst der Anfang. "Wir müssen die Sammlung brauchbarer Sätze beschleunigen. Dazu brauchen wir die Öffentlichkeit und die Hilfe aus der Wissenschaft", sagte Marion Kremer, sprachwissenschaftliche Beraterin des Projekts.
Es sei sowohl der Zugang zu allen offiziellen zweisprachigen Materialien wichtig als auch die Einbindung der sorbischen Sprachgemeinschaft, um die Sotra-Datenbank weiter mit Materialien zu füttern. Technisch basiert Sotra auf der Open-Source-Übersetzungssoftware Moses sowie OpenNMT, einem System zur maschinellen Übersetzung auf Grundlage neuronaler Netze.
"Sotra mit allen Vorarbeiten ist eine perfekte Grundlage für eine weitere Integration in Plattformen aller großen Hersteller", sagte Microsoft-Vertreter Thomas Langkabel. Das Technologieunternehmen gab 2014 den Anstoß für die Sammlung zweisprachiger Texte für das Übersetzungsprogramm Obersorbisch-Deutsch. Entscheidend sei eine ausreichend große Menge an Daten, um die Systeme in der Sprache zu trainieren. Langkabel führte als Beispiel die Sprache der Inuit aus Kanada an. Seit Ende Januar ist Inuktitut im Microsoft Translator eingebunden, der in diesem Fall auf sieben Millionen Wortpaare zurückgreifen kann. Bis jetzt bietet zum Beispiel Facebook bei sorbischen Texten eine Übersetzung aus dem nahe verwandten Tschechischen oder auch Polnischen an, was das Ergebnis aber entsprechend verfälscht.
Ganz aktuell hat das Projektteam zur Eigenentwicklung des Übersetzungsprogramms die Datenbank mit neuem Vokabular zu den Themen Impfen, Impfzentrum und Corona gespeist. Parallel zum Ausbau des bilingualen Korpus in Obersorbisch-Deutsch mit dem Ziel der künftigen Integration in den Microsoft Translator oder Google Translate soll ab 1. April 2021 mit dem Aufbau eines digitalen niedersorbischen Übersetzungsprogramms begonnen werden, kündigte Beate Brezan, Leiterin des Witaj-Zentrums, an. In der Einrichtung in Budyšin/Bautzen für den Erhalt und eine Revitalisierung der beiden sorbischen Sprachen laufen die Fäden für die Projekte zusammen.
Gefördert wird Sotra durch das sächsische Wissenschaftsministerium mit rund 140.000 Euro und dem Bund mit 72.000 Euro. "Das Projekt beweist, dass Digitalisierung ein wichtiger Faktor ist, um die Zweisprachigkeit der Oberlausitz für alle - Sorben und Nichtsorben - greifbarer zu machen", betonte Staatsministerin Barbara Klepsch. Nach offiziellen Angaben gibt es etwa 60.000 Sorben und Wenden, von denen zwei Drittel in Sachsen leben. Ihr Siedlungsgebiet liegt in Ostsachsen, die niedersorbisch sprechenden Wenden sind im Süden Brandenburgs beheimatet.
Was genau ist denn jetzt deine Kritik an dem Übersetzer?