Maschinelle Übersetzung

Wie funktioniert maschinelle Übersetzung?

Die Sprachfähigkeit ist eines der wichtigsten Merkmale in denen sich der Mensch vom Tier unterscheidet, und die menschlichen Sprachen, die sich über Jahrtausende entwickelt haben, gehören zu den größten Kulturleistungen der Menschen überhaupt. Sie sind organische Gebilde, die so ungemein anpassungsfähig sind, dass sie oft sogar als chaotisch empfunden werden.

Wie kann es gehen, dass ein Computerprogramm mit diesen organisch gewachsenen Gebilden, den Sprachen, umgehen kann, sie versteht und sogar ineinander übersetzt? Ohne in philosophische Überlegungen zu geraten, kann man sagen, dass ein Computerprogramm Sprachen ebenso wenig verstehen kann wie die Berechnungen von Satellitenumlaufbahnen, die es zuverlässig durchführt, oder das Schachspiel, auch wenn es Kasparov darin schlägt.

Übersetzungsprogramme wenden die Regeln und das Wissen an, mit denen ihre Entwickler die Funktionsweise der Sprache zu modellieren versuchen. Manchmal werden solche Regeln auch auf statistischem Wege über die Untersuchung riesiger Textmengen gewonnen, in jedem Fall mit dem Ziel, das Verhalten eines Übersetzers nachzubilden. Da Sprachen so komplexe Gebilde sind, ist es noch niemandem gelungen, ihre Funktionsweise vollständig und präzise zu beschreiben. Das zeigt sich unter anderem, wenn Übersetzungsprogramme Fehler machen oder versagen.

Die Hauptschwierigkeit, mit der Übersetzungsprogramme zu kämpfen haben, ist die Mehrdeutigkeit sprachlicher Äußerungen, einzelner Wörter, aber auch ganzer Sätze. Ein großer Teil der Regeln in Übersetzungsprogrammen beschreibt, unter welchen Bedingungen welche Bedeutung zum Tragen kommt. Das verdeutlichen Beispiele wie diese:

Der Kurs findet statt. (Kurs ⇒ course)
Der Kurs fällt. (Kurs ⇒ rate)

Briefträger beißen Hunde selten.
Dogs seldom bite postmen.
Postmen seldom bite dogs.

Im ersten Beispiel kommen unterschiedliche Bedeutungen des Wortes Kurs vor, die durch den Zusammenhang geklärt werden. Im zweiten Beispiel ist die Satzstruktur mehrdeutig — es ist nicht klar, ob Briefträger Subjekt oder Objekt ist.

Trotz aller Schwierigkeiten hat die maschinelle Übersetzung, an der seit der Anfangszeit der Computer Ende der vierziger Jahre des letzten Jahrhunderts gearbeitet wird, solche Fortschritte gemacht, dass sie eine große Hilfe im Umgang mit fremdsprachigen Texten darstellt. Wie das funktioniert, wird im Folgenden kurz skizziert.

Übersetzung in sieben Schritten

Wir beschreiben hier das Übersetzen von Texten oder Dokumenten und nicht das Dolmetschen gesprochener Äußerungen. Die Überführung von gesprochener in geschriebene Sprache und die Synthese gesprochener Sprache aus Texten sind eigene Themen, die man unabhängig vom Übersetzen behandeln kann.

Zerlegen von Dokumenten in Wörter, Sätze und Formatangaben

Die Grundbausteine, mit denen Übersetzungsprogramme arbeiten, sind Wörter und Regeln über deren Kombinierbarkeit zu Sätzen, Abschnitten und ganzen Texten. Jedes Dokument, das übersetzt werden soll, muss also in Wörter, Zahlen und Satzzeichen zerlegt werden. Da das Layout in der Übersetzung meistens genauso aussehen soll wie das des Originals, muss auch diese Information erkannt und später an der passenden Stelle in die Übersetzung eingefügt werden.

Da die Kombinationsregeln — die grammatischen Regeln — für Sätze formuliert werden, müssen auch die Satzgrenzen bestimmt werden. Das ist leider weniger leicht, als es auf den ersten Blick scheint. Einem Punkt sieht man es nicht sofort an, ob er das Satzende, eine Abkürzung oder eine Ordnungszahl kennzeichnet, oder ob er vielleicht Bestandteil einer Email- oder Internet-Adresse ist oder der optischen Gruppierung von Ziffern dient.

Rückführen von Wörtern auf ihre Grundform und Suche im Wörterbuch

Jedes Übersetzungsprogramm braucht ein Wörterbuch. Hier stehen alle Informationen, die für die Analyse von Sätzen und die Übersetzung gebraucht werden, zum Beispiel die Wortart, das grammatische Geschlecht oder Angaben über die Bedeutung.

Grundsätzlich kann man jede mögliche Form eines Wortes ins Wörterbuch aufnehmen, also zum Beispiel schlafen, schlafe, schläfst, schläft, schlaft, schlief, etc. Das wird meistens nicht gemacht, sondern man bevorzugt eine so genannte morphologische Zerlegung, bei der die einzelne Wortform auf eine Grundform — das Stichwort in herkömmlichen Wörterbüchern — zurückgeführt wird. Damit wird dann im Wörterbuch gesucht, und die grammatische Funktion der vorliegenden Wortform wird mit der dort gefundenen Information bestimmt, zum Beispiel schläfst ⇒ 2. Person Singular Präsens.

Erkennen der Satzstruktur

In der Anfangszeit glaubte man, brauchbare Übersetzungen schon dadurch herstellen zu können, dass man ein Programm Wort für Wort übersetzen lässt. Das erwies sich aber sehr schnell als Illusion, da sich die Sprachen erstens in ihrer Wortstellung sehr stark unterscheiden und zweitens viele Wörter mehrere Übersetzungen haben können, von denen meistens in einem gegebenen Satz nur eine gültig ist. Die Ergebnisse waren vollkommen unverständliche Abfolgen von alternativen Wortübersetzungen, mit denen niemand etwas anfangen konnte.

Ein Übersetzungsprogramm muss also die Grammatik beherrschen. Jedem Wort und jeder Wortgruppe muss die passende Rolle im Satz zugeordnet werden, und dabei muss sehr genau darauf geachtet werden, welche Kombinationen wahrscheinlich, möglich oder ausgeschlossen sind. Die Genauigkeit dieser Regeln ist entscheidend für die Qualität der Übersetzung.

Nicht nur der durch den jeweiligen Satz gegebene Zusammenhang beeinflusst die Bedeutung der Wörter, sondern auch Beziehungen zwischen den Sätzen. Die Verwendung von Pronomen wie er, sie, es kann die Interpretation eines Satzes sehr erschweren. Wie soll zum Beispiel das Wort einstellen in dem Satz

Das Unternehmen stellt sie ein.

übersetzt werden? Ist es hire, adjust, stop oder noch etwas anderes? Das hängt davon ab, ob sie sich auf eine Person, eine Maschine oder die Produktion bezieht. Wenn das nicht bekannt ist, kann weder ein Mensch noch ein Programm diesen Satz vernünftig übersetzen.

Zuordnen von Übersetzungen zu einzelnen Wörtern

Jedem Wort und vielen Wortgruppen sind im Wörterbuch eine oder mehrere Übersetzungen zugeordnet. Nachdem durch die Analyse eines Satzes der Zusammenhang bekannt ist, in dem die Wörter stehen, können die jeweils passenden Übersetzungen ausgewählt werden.

Erzeugen der Struktur der zielsprachlichen Sätze

Ausgehend von der Struktur des ursprünglichen Satzes und der ausgewählten Übersetzungen für die einzelnen Wörter wird nun die Struktur der Übersetzung aufgebaut, die sich von der des Originals sehr stark unterscheiden kann. So wird

John grows a beard.

John lässt sich einen Bart wachsen.

weil das Wort wachsen im Deutschen nicht transitiv verwendet werden kann und deshalb ein weiteres Verb — lassen — als eine Art Vermittler benötigt wird.

Erzeugen der richtigen Wortformen

Während die korrekte Abfolge der Wörter in der Übersetzung ermittelt wird, arbeitet das Übersetzungsprogramm üblicherweise mit Grund- oder Stammformen der Wörter. Erst wenn die Struktur endgültig feststeht, wird aus den Formen lass, ein und wachs des vorigen Beispiels lässt, einen und wachsen.

Hinzufügen der Layout-Information

Die Layout-Information, die im ersten Schritt weitgehend ausgeblendet wurde, wird nun zu den Übersetzungen wieder hinzugefügt, sodass schließlich ein neuer Text entsteht, der weitgehend so aussieht wie das Original. Dazu noch eine Bemerkung: Manche Layout-Angaben wie Fettdruck einzelner Wörter müssen tatsächlich während des Übersetzen eines einzelnen Satzes berücksichtigt werden, da ja die Entsprechungen im Satz möglichst gleich — zum Beispiel fett — erscheinen sollen.