Sprachverarbeitung: Sorben bauen sich Machine-Learning-Übersetzer selbst

Großen IT-Unternehmen fehlt oft das Interesse zur Unterstützung kleiner Sprachen. Dank Deep Learning helfen sich die Sorben nun selbst.

Artikel veröffentlicht am , / dpa
Moderne Technik kann Übersetzungen deutlich vereinfachen.
Moderne Technik kann Übersetzungen deutlich vereinfachen. (Bild: Quinn Dombrowski/Flickr.com/CC-BY-SA 2.0)

Diese drei Worte waren der Durchbruch: "Ja sym doma" - mit dem Erlernen dieses Satzes hat die Geschichte des ersten digitalen sorbischen Übersetzungsprogramms begonnen. "Ich bin zu Hause" überträgt der virtuelle Dolmetscher in Echtzeit ins Deutsche. Nach zwei Jahren Projektarbeit ist Sotra nun online gegangen. "Wir haben eine große Vision, dass mit technologischer Hilfe Menschen in der Lage sind, ihre Muttersprache zu sprechen, auch wenn Leute dabei sind, die kein Sorbisch können. Wir setzen gerade die einzelnen Bausteine dieser Vision zusammen", sagte Jan Budar, Direktor der Stiftung für das sorbische Volk, bei der Vorstellung der digitalen Plattform am Montag.

Sotra ist die Abkürzung für Sorbian Translator. Dahinter stehen 200.000 obersorbisch-deutsche Satzpaare aus unterschiedlichen Lebensbereichen mit reichhaltigem Vokabular und vielfältigen grammatischen Formen. Doch das ist erst der Anfang. "Wir müssen die Sammlung brauchbarer Sätze beschleunigen. Dazu brauchen wir die Öffentlichkeit und die Hilfe aus der Wissenschaft", sagte Marion Kremer, sprachwissenschaftliche Beraterin des Projekts.

Es sei sowohl der Zugang zu allen offiziellen zweisprachigen Materialien wichtig als auch die Einbindung der sorbischen Sprachgemeinschaft, um die Sotra-Datenbank weiter mit Materialien zu füttern. Technisch basiert Sotra auf der Open-Source-Übersetzungssoftware Moses sowie OpenNMT, einem System zur maschinellen Übersetzung auf Grundlage neuronaler Netze.

"Sotra mit allen Vorarbeiten ist eine perfekte Grundlage für eine weitere Integration in Plattformen aller großen Hersteller", sagte Microsoft-Vertreter Thomas Langkabel. Das Technologieunternehmen gab 2014 den Anstoß für die Sammlung zweisprachiger Texte für das Übersetzungsprogramm Obersorbisch-Deutsch. Entscheidend sei eine ausreichend große Menge an Daten, um die Systeme in der Sprache zu trainieren. Langkabel führte als Beispiel die Sprache der Inuit aus Kanada an. Seit Ende Januar ist Inuktitut im Microsoft Translator eingebunden, der in diesem Fall auf sieben Millionen Wortpaare zurückgreifen kann. Bis jetzt bietet zum Beispiel Facebook bei sorbischen Texten eine Übersetzung aus dem nahe verwandten Tschechischen oder auch Polnischen an, was das Ergebnis aber entsprechend verfälscht.

Ganz aktuell hat das Projektteam zur Eigenentwicklung des Übersetzungsprogramms die Datenbank mit neuem Vokabular zu den Themen Impfen, Impfzentrum und Corona gespeist. Parallel zum Ausbau des bilingualen Korpus in Obersorbisch-Deutsch mit dem Ziel der künftigen Integration in den Microsoft Translator oder Google Translate soll ab 1. April 2021 mit dem Aufbau eines digitalen niedersorbischen Übersetzungsprogramms begonnen werden, kündigte Beate Brezan, Leiterin des Witaj-Zentrums, an. In der Einrichtung in Budyšin/Bautzen für den Erhalt und eine Revitalisierung der beiden sorbischen Sprachen laufen die Fäden für die Projekte zusammen.

Gefördert wird Sotra durch das sächsische Wissenschaftsministerium mit rund 140.000 Euro und dem Bund mit 72.000 Euro. "Das Projekt beweist, dass Digitalisierung ein wichtiger Faktor ist, um die Zweisprachigkeit der Oberlausitz für alle - Sorben und Nichtsorben - greifbarer zu machen", betonte Staatsministerin Barbara Klepsch. Nach offiziellen Angaben gibt es etwa 60.000 Sorben und Wenden, von denen zwei Drittel in Sachsen leben. Ihr Siedlungsgebiet liegt in Ostsachsen, die niedersorbisch sprechenden Wenden sind im Süden Brandenburgs beheimatet.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Elektrische G-Klasse angeschaut
Wendig wie ein Panzer, schwerer als ein Rolls Royce

Der elektrische G 580 von Mercedes-Benz ist so schwer wie der Cybertruck. Zwar beherrscht der Geländewagen eine Panzerwende, kann aber noch keinen Anhänger ziehen.
Ein Bericht von Friedhelm Greis

Elektrische G-Klasse angeschaut: Wendig wie ein Panzer, schwerer als ein Rolls Royce
Artikel
  1. Worst-Case-Szenario tritt ein: Cloudanbieter geht durch Hackerangriff pleite
    Worst-Case-Szenario tritt ein
    Cloudanbieter geht durch Hackerangriff pleite

    Cyberkriminelle haben im August 2023 die Systeme von Cloudnordic verschlüsselt. Nun existiert der dänische Cloudanbieter nicht mehr.

  2. Ubisoft: Assassin's Creed Hexe mit Katze und Angst
    Ubisoft
    Assassin's Creed Hexe mit Katze und Angst

    Das Fear-System aus Syndicate und eine fernsteuerte Katze: Ein Leak hat neue Details über das Gameplay des Mittelalter-Assassin's-Creed Hexe.

  3. Valve: Steam ändert Refund-Regeln für Early-Access-Spiele
    Valve
    Steam ändert Refund-Regeln für Early-Access-Spiele

    Wer weniger als zwei Stunden gespielt hat, kann ein Spiel auf Steam umtauschen. Diese Regelung gilt jetzt auch für unfertige Titel.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MacBook Air über 200€ günstiger • MediaMarkt: Asus Gaming-Laptop 999€ statt 1.599€ • Galaxy S23 400€ günstiger • MindStar: Radeon & Geforce-Grafikkarten zu Tiefstpreisen • Anker USB-Ladegeräte -45% • MSI MEG 342CDE OLED 999€ • Gamesplanet Spring Sale [Werbung]
    •  /