Hybridansatz für Maschinenübersetzung

In der wissenschaftlichen Forschung hat man der statistischen Maschinenübersetzung (Machine Translation, MT) bereits erhebliche Aufmerksamkeit gewidmet, aber in der Praxis dominieren weiterhin die Architekturen der traditionellen regelbasierten Maschinenübersetzung (Rule-Based Machine Translation, RBMT). Zurückzuführen ist das auf eine Reihe von Gründen und Mängel auf beiden Seiten.

In Hinsicht darauf schlug das Projekt HYGHTRA (A hybrid high quality translation system) eine Hybridarchitektur vor, welche die Stärken beider Ansätze kombiniert und ihre Schwächen minimiert, um eine hochwertige MT zu erzielen. Das Unternehmen wurde als Kooperationsprojekt zwischen einem Zentrum für Übersetzungswissenschaft an einer Universität und einem Sprachdatenverarbeitungsunternehmen, beide Deutschland, durchgeführt.

Die Projektmitglieder entwickelten eine Methodik und erstellten etliche Recheninstrumente und -ressourcen zur schnellen Einbindung neuer Sprachen und Übersetzungsrichtungen in ein regelbasiertes MT-System unter Nutzung statistischer MT-Verfahren.

Die Arbeit mündete überdies in einer modularen Entwicklungsinfrastruktur. So ebnete man den Weg zu einem neuen Spektrum von Produkten und Dienstleistungen, die der Industriepartner inzwischen auf neuen Märkten jenseits der traditionellen MT-Nutzer anbietet. Dazu zählen Module zur ergiebigen linguistischen Analyse und Generierung, für Terminologieextraktion sowie zur Unterstützung des kollaborativen Übersetzungsprozesses.

Das Team hat überdies neuartige Einsatzmöglichkeiten der MT-Technologie in Bereichen wie Fremdsprachenerwerb und Übersetzungstraining erkundet. Sie schlugen eine Methode auf pädagogischer Basis und Szenarien für die MT-Anwendung für fortgeschrittene Sprachenlernende vor, um den Prozess zu unterstützen.

Neue Methoden sind für die Einarbeitung von reich kommentierten Wörterbüchern und Grammatiken aus großen Textsammlungen, das Extrahieren von Datenbanken aus Übersetzungsäquivalenten, die Ureingabe (Bootstrapping) von elektronischen Wörterbüchern und Grammatiken für neue, eng verwandte Sprachen sowie die statistische Begriffserklärung von konkurrierenden Anwendungen der Parsing-Regeln relevant. Man erprobte pädagogisch motivierte Szenarien des Einsatzes von MT zum Erzeugen des linguistischen Negativbeweises für fortgeschrittenes Sprachenlernen und Übersetzertraining bei der Lehre des Hochschulmoduls "English for Translators" (Englisch für Übersetzer).

Sonstige Projektaktivitäten umfassen eine Serie von Workshops auf führenden internationalen Konferenzen über Computerlinguistik. Sie vereinten eine Gemeinschaft von MT-Forschern und MT-Entwicklern aus der Industrie, die Interesse an MT-Hybridansätzen haben.

Der wissenschaftliche Hauptbeitrag von HYGHTRA ist die Entwicklung einer neuen Art des Aufbaus von MT-Hybridsystemen, bei denen einer vorhandenen breitangelegten RBMT statistische Verfahren hinzugefügt werden. Die Systemarchitektur bleibt in ihrem Kern regelbasiert, aber statistische Methoden unterstützen die schnelle Entwicklung von Grammatiken und Wörterbüchern für neue Übersetzungsrichtungen. So werden die Beibehaltung der Genauigkeit der Sprachanalyse sowie ein kleinerer Rechenaufwand unterstützt.

veröffentlicht: 2015-11-13
Kommentare


Privacy Policy