Meet the Innovators: Samuel Frontull über maschinelle Übersetzung zur Förderung des Ladinischen
14.11.2024Samuel Frontull, ein 28-jähriger Wissenschaftler an der Universität Innsbruck (Österreich), hat das erste maschinelle Übersetzungssystem für Ladinisch entwickelt, eine Minderheitensprache, die von etwa 30.000 Menschen in den norditalienischen Regionen Südtirol, Trentino und Belluno gesprochen wird. Sein Tool, das über tradutur-informatik.uibk.ac.at zugänglich ist, unterstützt Übersetzungen zwischen Ladinisch-Englisch, Ladinisch-Deutsch und Ladinisch-Italienisch. Samuels Arbeit hat in den Medien große Aufmerksamkeit erregt und ihn zu einer prominenten Persönlichkeit in der Digitalisierung des Ladinischen gemacht. In diesem Interview spricht Samuel, der auch als Redner beim bevorstehenden 8. Forum der Europäischen Minderheitenregionen (26.–27. November 2024 in San Sebastián/Donostia, Baskenland) auftreten wird, über die Inspiration hinter seinem Projekt, die Herausforderungen bei der Förderung einer kleinen Sprache und seine Vision für die Zukunft der Sprachtechnologie.
Herr Frontull, könnten Sie kurz erklären, was genau Sie entwickelt haben und wie es der ladinischen Sprache zugutekommt?
In den letzten drei Jahren habe ich im Rahmen eines Forschungsprojekts an der Universität Innsbruck in Zusammenarbeit mit dem Ladinischen Kulturinstitut „Micura de Rü“ ein maschinelles Übersetzungssystem für die ladinische Sprache entwickelt. Wir haben uns diesem Thema als Forschungsprojekt genähert, da es zunächst unklar war, ob ein Übersetzungssystem für eine kleinere Sprache mit begrenzten Datenressourcen geschaffen werden kann. Nach drei Jahren engagierter Arbeit haben wir nun ein Onlinetool, das Texte ins und aus dem Ladinischen übersetzen kann (derzeit für die Val-Badia-Variante des Ladinischen). Obwohl dieses Tool immer noch auf diese spezielle Variante beschränkt ist und noch verbessert werden kann, ist es bereits praktikabel und kann hilfreiche Unterstützung bieten. Es kommt der ladinischen Sprache zugute, indem es Interessierte dazu anregt, sich mit ihr zu beschäftigen, und indem es diejenigen unterstützt, die sie beruflich verwenden, wodurch die Sprache zugänglicher und attraktiver wird.
Was hat Sie dazu inspiriert, ein maschinelles Übersetzungssystem für Ladinisch zu entwickeln?
Die Idee kam mir während meines Studiums an der Universität Innsbruck, wo ich dieses Thema für meine Abschlussarbeit im Rahmen des Weiterbildungsprogramms „Data Science“ vorschlug. Obwohl ich es als eine faszinierende datenwissenschaftliche Herausforderung empfand, ist dieses Projekt im Kern wahrscheinlich aus meinem langjährigen Wunsch entstanden, Ladinisch sichtbarer und zugänglicher zu machen. Es ist eine einzigartige Kombination aus meinem Informatik-Hintergrund und meiner Muttersprache, was es für mich besonders bedeutungsvoll macht. Mit finanzieller Unterstützung der Regione Autonoma Trentino-Alto Adige/Südtirol und der Unterstützung des Ladinischen Kulturinstituts „Micurá de Rü“ hatte ich die Möglichkeit, weiter daran zu arbeiten und es auf den aktuellen Stand zu bringen.
Wie sehen Sie den Einfluss Ihrer Arbeit auf die Zukunft der ladinischen Sprache?
Das ist schwer vorherzusagen, da es sich lediglich um ein digitales Tool handelt. Wenn ich etwas getan hätte, um Probleme wie die hohen Lebenshaltungskosten in ladinischsprachigen Gebieten anzugehen, könnte ich selbstbewusster sagen, dass ich die Zukunft der Sprache gestärkt habe. Dennoch kann es dazu beitragen, das Ladinische zu erhalten, und es eröffnet spannende Möglichkeiten für weitere Anwendungen. Im Idealfall wird dieses Projekt neue Initiativen anregen, um die Sichtbarkeit und Zugänglichkeit der Sprache zu erhöhen.
Auf welche Herausforderungen sind Sie bei der Digitalisierung des Ladinischen gestoßen?
Das Ladinische ist in einer relativ guten Position, da es immer noch aktiv im Alltag verwendet, gefördert, medial präsent, in Schulen unterrichtet und wissenschaftlich erforscht wird. Dies bietet eine wichtige Grundlage für die Entwicklung eines maschinellen Übersetzungssystems, da es hochwertige Ressourcen und eine breitere potenzielle Nutzerbasis gewährleistet. Dennoch bin ich auf mehrere Herausforderungen gestoßen, insbesondere bei der Datenerhebung und -aufbereitung. Eine Besonderheit des Ladinischen ist seine Vielfalt, mit verschiedenen Varianten, die jeweils eigene Schreibkonventionen haben. Diese Vielfalt stellt eine Herausforderung dar, da jede Variante einen maßgeschneiderten Ansatz erfordert und hochwertige Texte für jede gesammelt werden müssen. Für die Val-Badia-Variante stellte die Rechtschreibreform von 2015 eine erhebliche Hürde dar, da ältere Texte vorverarbeitet werden mussten, um den aktualisierten Standards zu entsprechen.
Wie haben die Medien auf Ihre Arbeit reagiert, insbesondere in Italien und Österreich?
Im Jahr 2021 wurde das Projekt von der Eduard-Wallnöfer-Stiftung der Tiroler Industrie ausgezeichnet, worüber in den lokalen Medien berichtet wurde, darunter Rai Ladinia, Rai Südtirol, die ORF-Sendung Südtirol Heute sowie die lokalen Zeitungen Dolomiten und La Usc di Ladins. Diese Medien haben uns sehr unterstützt, indem sie wichtige Textressourcen bereitgestellt und stets Interesse an den Fortschritten des Projekts gezeigt haben.
Was sind Ihre Pläne für die Zukunft der Sprachtechnologie und der Minderheitensprachen?
Es sind verbesserte Lösungen erforderlich, um bestehende Technologien für Minderheitensprachen effektiver zu machen. Die meisten modernen Systeme basieren auf großen Datensätzen, um Sprachmuster nachzuahmen – eine Methode, die für größere Sprachen effektiv ist, aber in ressourcenarmen Szenarien oft versagt. Die Anpassung solcher Systeme kann ebenfalls schwierig sein, da ihre internen Mechanismen nicht leicht interpretierbar sind. Lösungen, die linguistisches Wissen einbeziehen, könnten fortschrittlichere Anwendungen für Minderheitensprachen ermöglichen. Ich stelle mir zukünftige Entwicklungen wie Sprachsynthese, Spracherkennung, intelligente Schreibassistenten, innovative Sprachkurse und Erzählwerkzeuge vor. Ich möchte zu dieser laufenden Reise beitragen.
Weitere Informationen zu Samuel Frontulls Arbeit:
- Ladin Machine Translator: Erkunden Sie Samuels Tool, das Übersetzungspaare für Ladinisch-Englisch, Ladinisch-Deutsch und Ladinisch-Italienisch (in der Val-Badia-Variante des Ladinischen) unterstützt.
- Artikel auf stol.it: „Das Ladinische zur Welt hin öffnen“ (Deutsch)
- Artikel auf lausc.it: Traduziun automatica ladina: pest por Samuel Frontull (Ladinisch)
- Wissenschaftlicher Aufsatz: Traduzione automatica “neurale” per il ladino della Val Badia (Italienisch); Bericht, der die Fortschritte bei der Entwicklung eines maschinellen Übersetzungssystems für die ladinische Sprache unter Verwendung neuronaler Modelle erörtert
- Wissenschaftlicher Aufsatz: Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin (Englisch); Untersuchung, die den Einfluss verschiedener Rückübersetzungsansätze auf die maschinelle Übersetzung für Ladinisch (Val-Badia-Variante) untersucht, einschließlich feinabgestimmter neuronaler Netzwerke, regelbasierter Systeme und großer Sprachmodelle
Pressemitteilungen
- Meet the Innovators: Dr. Jörg Hübner über den Einsatz von Videospielen zur Förderung der sorbischen Sprache
- Meet the Innovators: Alexandru Jerpelea über sein Übersetzungstool zur Erhaltung des Aromunischen
- 8. Forum der Europäischen Minderheitenregionen: Pressekonferenz im Baskenland
- FUEN-Präsident und Vizepräsident nahmen an Minderheitenkonferenz der ungarischen EU-Ratspräsidentschaft teil
- Der „Minority Monitor“ präsentiert: Hassrede in den (sozialen) Medien
- „Women of Minorities“: Erfolgreiche Konferenz zu multiplen und intersektionalen Formen der Ungleichheit
- Die 10. Jahrestagung der FUEN TAG fand in der türkischen Hauptstadt Ankara statt
- Von den Alpen bis zur Adria: Die EUROPEADA 2028 findet in Friaul-Julisch Venetien statt
- 33. AGDM-Jahrestagung: „Wir sind kein Museum, sondern eine lebendige Gemeinschaft“
- Stellenausschreibung: Büromanager/-in