Die EU-Forschung ist beim Studium der maschinellen Übersetzung (MÜ) weitergekommen, die bedeutende Auswirkungen auf Gesellschaft und Industrie haben dürfte. Das Projekt mündete in einem System mit verbesserter MÜ-Architektur und bietet sich als ein leistungsfähiges Werkzeug für Forscher, Dozenten und Studierende der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) an.
Das EU-finanzierte Projekt "Testing the portability of techniques to
handle dissimilar source and target languages in MT" (ENEUS) kombinierte
Fachkompetenz aus den Bereichen Linguistik, Informatik und
Übersetzung. Die Arbeit ist für die Nutzer maschineller Übersetzungen
sowie die Erkundung von Wechselwirkungen zwischen Computer und
menschlichen Sprachen von Bedeutung.
ENEUS maß die Funktionsfähigkeit der Matxin-MT-Architektur in Bezug
auf die Übertragbarkeit auf verschiedene Sprachenpaare. Man bewertete
das System überdies im Hinblick auf analytische Sprachen (z. B.
Englisch) als Ausgangssprache und agglutinierende Sprachen (z. B.
Baskische) als Zielsprache. Matxin erwies sich für die Übersetzung
zwischen verschiedenen Sprachen als geeignet, da eine Tiefenanalyse mit
dem Schwerpunkt Morphosyntax möglich ist.
Man erstellte einen RBMT-Prototyp (regelbasierte
Maschinenübersetzung, rule-based machine translation). Im Folgenden
arbeitete man an der Übertragbarkeit des existierenden Systems für
Spanisch-Baskisch, um in der Richtung Englisch-Baskisch voranzukommen.
Der Prototyp umfasst 35 000 Einträge. Er kann einfache bejahende,
verneinende und Fragesätze, die aus indikativen Zeitformen bestehen, für
alle vier Subjekt-Objekt-Paradigmen sowie für Aktiv- und Passivfomen
und Imperative bewältigen.
ENEUS untersuchte agglutinierende Merkmale und Wortstellungsprofile
der englischen und der baskischen, finnischen und ungarischen Sprache.
Die drei letztgenannten sind agglutinierende Sprachen.
Die Projektarbeit verdeutlichte, dass SMT-Systeme nicht alle
agglutinierenden Sprachen gleichermaßen gut in den Griff bekommen, und
dass ein mehr an der Ausgangssprache orientierter Ansatz möglich und von
Vorteil sein könnte. Die Forschung zum Alignment für
englisch-finnische, englisch-ungarische und englisch-baskische Paare
ergab ENEUS-SMT-Systeme, die dem Aufbau nach allen Paaren genügen.
Als Bestandteil des ENEUS-Outreach-Programms trugen 500 Nutzer zur
Human-Evaluation-Kampagne bei. Sie verglichen vier vom Projekt
entwickelte Englisch-Baskisch-MT-Systeme sowie den Google-Übersetzer
nach Stand der Technik. Die Resultate wiesen nach, dass sich das
morphologisch versierte SMT-System auf einer Stufe mit den
Google-Übersetzer befand. Diese beiden Systeme funktionierten gegenüber
allen anderen am besten.
Das beste ENEUS-System wurde in den Bologna Translation Service
(Elhuyar) integriert. Die Nutzer werden über die Matxin-Website (powered
by
Elhuyar) auf die
ENEUS-Prototypen zugreifen können. Bei dem RBMT-System handelt es sich
um das erste Open-Source-Englisch-Baskisch-MT-System. Es steht den
Entwicklern über
sourceforge
zur Verfügung und bietet die Möglichkeit zum Aufbau und zur Erforschung
unter Einsatz von Englisch und Spanisch als Ausgangssprachen, die in
eine beliebige andere Sprache übersetzt werden sollen.