Leistungsfähigkeit von translate

Ziel eines Systems für maschinelle Übersetzung ist es, möglichst gut und schnell zu übersetzen. Die Übersetzungsqualität hängt von einer Reihe von Parametern ab. Die wichtigsten sind:

  • Eignung des Quelltextes für die maschinelle Übersetzung: Komplexität und Länge der Sätze, Mehrdeutigkeiten
  • Verfügbarkeit des benötigten Vokabulars
  • sprachliche Analyse- und Übersetzungsfähigkeiten des Systems
  • stilistische Anforderungen an die Übersetzung

translate ist ausführlich getestet worden, einerseits systematisch hinsichtlich sprachlicher Konstruktionstypen und Übersetzungsprobleme, andererseits anhand konkreter Fachtexte.

Die Übersetzungsgeschwindigkeit von translate ist selbstverständlich von der verfügbaren Hardware- und Softwarekonfiguration abhängig, aber auch von der Komplexität der zu übersetzenden Sätze.

Einige Beispiele sollen die Leistungsfähigkeit von translate veranschaulichen. Sie sind in der angegebenen Form von translate vom Englischen ins Deutsche übersetzt worden und mit den entsprechenden Einstellungen jederzeit nachvollziehbar.

Homonyme

Homonyme sind solche Wörter, denen mehrere Begriffe entsprechen. Diese verschiedenen Begriffe können dann völlig verschiedene morphosyntaktische Eigenschaften haben. Beispielsweise kann ein Wort mehrere Wortarten vertreten, wie walk als Verb und als Substantiv. Im Englischen treten solche Homonyme häufig auf:

He watches her watches.
She books some books.
In order to eat they order a meal.
They can can the fish in a can.

Diese haben zwei bzw. drei Bedeutungen, die im Wörterbuch festgehalten sind, zusammen mit den Kriterien, wann welche Bedeutung gebraucht wird. translate liefert folgende deutsche Übersetzungen:

Er beobachtet ihre Uhren.
Sie bucht einige Bücher.
Um zu essen, bestellen sie eine Mahlzeit.
Sie können den Fisch in einer Dose eindosen.

Semantische Typen

Mehrdeutigkeiten von Wörtern können oft dadurch beschrieben werden…

  1. …dass man ihnen unterschiedliche semantische Typen (Oberbegriffe) zuordnet
  2. …dass man die semantischen Typen ihrer Slots  (Ergänzungen) beschreibt

Ein Wort wie Bank kann beschrieben werden als Institution und als Möbel. Nur aus dem Zusammenhang eines Satzes lässt sich entscheiden, welche Bedeutung von Bank und dementsprechend welche Übersetzung gerade benötigt wird.

Beim Verb erheben führen die unterschiedlichen semantischen Typen der Slots zu unterschiedlichen Übersetzungen, wie die folgenden Beispiele zeigen:

Der Staatsanwalt erhob Anklage gegen den Mörder.

The public prosecutor brought charges against the murderer.

Der Gemeinderat hat eine Gebühr auf Abfall erhoben.

The district council has levied charges on waste.

Die Tenöre erhoben die Stimme.

The tenors raised the voice.

Er erhob sich.

He rose.

Mehrwortlexeme

Mehrwortlexeme (Mehrwortausdrücke) sind Wortgruppen, deren Bedeutung sich nicht einfach aus ihren Bestandteilen ergibt und die demzufolge auch anders zu übersetzen sind als die einzelnen Wörter, die in ihnen vorkommen. Sie müssen ins Wörterbuch aufgenommen werden, wenn sie korrekt übersetzt werden sollen. Alle Wortarten können in Mehrwortlexemen vorkommen, die einzelnen Teile können oftmals flektieren (ihre Form verändern), und sie können oft auch getrennt voneinander vorkommen.

Beim Verb stellen ist im Wörterbuch festgehalten, dass es in Verbindung mit Verfügung (anders als gewöhnlich) mit provide zu übersetzen ist.

Ich werde die Vase zur Lampe stellen.

I will place the vase next to the lamp.

Ich werde die Vase zur Verfügung stellen.

I will provide the vase.

Manchmal gibt es bei Mehrwortlexemen auch parallele Bildungen im Deutschen und Englischen wie bei:

Er verlor sein Gesicht.

He lost his face.

Dann braucht im Wörterbuch nichts unternommen werden.

Die häufigsten Mehrwortlexeme im Englischen sind noun-noun compounds (Substantivketten), Substantive mit Präpositionalattributen und Adjektiv-Substantiv-Gruppen wie:

railway station

Bahnhof

table of contents

Inhaltsverzeichnis

environmental pollution

Umweltverschmutzung

Passiv

Das Englische bildet das Passiv etwas anders als das Deutsche. Bei der Übersetzung wird das von translate berücksichtigt:

  1. Das Englische bildet das Passiv mit sein, das Deutsche mit werden.
  2. Im Deutschen wird durch Passivbildung nur das Akkusativobjekt zum Subjekt, im Englischen kann außer dem direct object auch das indirect object passiviert werden.
  3. Wenn im Englischen das indirect object Subjekt des Passivsatzes ist, müssen in der Übersetzung die Rollen vertauscht werden.

Die folgenden Sätze im Aktiv ergeben dieselbe Übersetzung:

Alice has given John the book.
Alice has given the book to John.

Alice hat John das Buch gegeben.

When the direct object is made passive, this changes to:

The book was given to John by Alice.

Das Buch wurde John von Alice gegeben.

Wenn das direct object passiviert ist, sieht das so aus:

John was given the book by Alice.

John wurde das Buch von Alice gegeben.

Das Deutsche kann zwei Arten von Passiv bilden. Vorgangspassiv:

Das Programm wird geladen.

Zustandspassiv:

Das Programm ist geladen.

Bei der Übersetzung ins Englische ergibt sich in beiden Fällen:

The program is loaded.

Problematisch ist hier die Übersetzung vom Englischen ins Deutsche, da es oft schwierig ist, zu erkennen, welche Möglichkeit die richtige ist.

Koordinierte Satzglieder

translate analysiert koordinierte Satzglieder mit einem komplexen Algorithmus, der es erlaubt, sowohl einfache Konjunktionen (wie and oder or), aber auch zusammengesetzte Konjunktionen (wie bothand) korrekt zu übersetzen:

John hears and Mary sees the car.

John hört, und Mary sieht das Auto.

Both John and Mary see the car.

Sowohl John als auch Mary sehen das Auto.

John Cleverman wants to buy a new car but tries to avoid having to pay too much for it.

John Cleverman will ein neues Auto kaufen, aber versucht, es zu vermeiden, zu viel dafür bezahlen zu müssen.

Implizite Subjekte

translate ist in der Lage, implizite Subjekte unvollendeter Verbformen zu erkennen. Ein Beispiel dafür ist das englische Verb want. Das System erkennt, dass in

John wants to leave.

John will gehen.

das Subjekt von leave mit dem Subjekt von wants verknüpft ist, wohingegen in

John wants Frank to leave.

John will, dass Frank geht.

das Subjekt von leave das Objekt von wants ist (also Frank).

Es gibt natürlich Ausnahmen von diesem allgemeinen Fall, deren Behandlung keine Schwierigkeiten bereitet. Sowohl in

John promised to leave.

John versprach zu gehen.

als auch in

John promised Frank to leave.

John versprach Frank zu gehen.

ist das Subjekt des Infinitivsatzes mit dem Subjekt des Hauptsatzes verbunden.

Fragesätze

translate behandelt natürlich auch Fragesätze korrekt. Hier einige Beispiele:

When did you arrive?

Wann kamen Sie an?

When will she leave us?

Wann verlässt sie uns?

Who did she try to find?

Wen versuchte sie zu finden?

Can you explain to me the way to the station?

Können Sie mir den Weg zum Bahnhof erklären?

Who did they say John wanted to find?

Von wem sagten sie, dass John ihn finden wollte?

Unvollständige Sätze

translate übersetzt auch einzelne Wörter und grammatisch sinnvolle Wortgruppen, die keine vollständigen Sätze sind, wenn sie

  • durch ein Satzendezeichen abgeschlossen sind
  • durch einen Zeilenvorschub abgeschlossen sind
  • markiert sind und mit den Befehlen Satz übersetzen oder Markierten Bereich übersetzen übersetzt werden.

tree

Baum

yellow flowers

gelbe Blumen

The building beside the station.

Das Gebäude neben dem Bahnhof.

The man watching the car.

Der Mann, der das Auto beobachtet.

Beachten Sie, dass Mehrdeutigkeiten bei Satzfragmenten nicht immer so gut aufgelöst werden können wie in vollständigen Sätzen. Es empfiehlt sich, solche Übersetzungen besonders sorgfältig zu überprüfen.

Zeichensetzung

Die Zeichensetzung (Interpunktion) spielt eine wichtige Rolle in translate.

Satzendezeichen

Punkt (.), Ausrufezeichen (!) und Fragezeichen (?) werden benutzt, um Texte in einzelne Sätze zu zerlegen. Zu beachten ist dabei, dass der Punkt unterschiedliche Funktionen haben kann:

  1. Satzende
  2. Kennzeichnung von Abkürzungen
  3. Dezimalpunkt (Englisch)
  4. Gruppierung von größeren mit Ziffern geschriebenen Zahlen (Deutsch)
  5. Kennzeichnung von Ordinalzahlen (Deutsch)

Trennzeichen

Komma (,), Semikolon (;), Gedankenstrich (-), Spiegelstrich (—), Doppelpunkt (:) werden benutzt, um Satzglieder voneinander zu trennen. translate behandelt solche Trennzeichen bei der Analyse ausgangsprachlicher Texte mit einer gewissen Liberalität. Beachten Sie jedoch, dass manchmal entscheidende Bedeutungsunterschiede durch Vorhandensein oder Abwesenheit von Trennzeichen ausgedrückt werden.

Er befiehlt ihm zu helfen.

He orders him to help.

Leider kann nicht garantiert werden, dass translate Kommas immer korrekt setzt, so dass Sie Übersetzungen in dieser Hinsicht immer sorgfältig überprüfen sollten. Beachten Sie, dass mit der neuen Rechtschreibung auch die Kommaregeln geändert wurden und dass jetzt unter Deutsche Rechtschreibung dafür eine Wahlmöglichkeit zwischen alter und neuer (liberalisierter) Kommasetzung besteht.

Klammerungen

Klammerungen sind paarweise auftretende Symbole wie runde, eckige, geschweifte Klammern, Gedankenstriche und Anführungszeichen, die Wörter oder Wortgruppen umschließen können:

John wears the (blue) shirt (which he bought yesterday).

John trägt das (blaue) Hemd (das er gestern kaufte).

John, after he had left the office, went to the bank.

John ging, nachdem er das Büro verlassen hatte, zur Bank.

I like the book I bought yesterday.

Das Buch, das ich gestern kaufte, gefällt mir.

Mehrdeutigkeiten

Die Mehrdeutigkeit natürlicher Sprachen ist eines der wesentlichen Probleme der maschinellen Übersetzung. translate verfügt über eine Reihe von Strategien, um mit der Mehrdeutigkeit der Sprache umzugehen, darunter:

  1. Kennzeichnung unterschiedlicher Bedeutungen von Wörtern und Ausdrücken hinsichtlich Wortart, syntaktischer und semantischer Eigenschaften.
  2. Bewertung, wie wahrscheinlich unterschiedliche Analysen einer Gruppe von Wörtern sind. Als Übersetzung wird dann die Variante mit der höchsten Wertung ausgegeben. Die Wertung beruht auf allgemeinen grammatischen Regeln. Übersetzungen, die keine vollständigen Sätze sind, werden so ausgeschlossen, wenn es eine vollständigere Analyse gibt

Am Beispiel des englischen Wortes like soll das Prinzip erläutert werden. Für like gibt es die Übersetzung gefallen (Verb) und wie (Konjunktion). Das führt in folgendem einfachen englischen Satz zu zwei Möglichkeiten:

I like it.

Es gefällt mir.
Ich wie es. (wrong !)

Die zweite Variante wird von translate als unwahrscheinlich angesehen und nicht als Übersetzung angeboten.

Kann ein Satz mehrere Bedeutungen haben und kann es folglich auch mehrere korrekte Übersetzungen geben, ist immer eine Variante die grammatisch einfachere Konstruktion. Das Programm entscheidet sich für diese. Bei der folgenden zweideutigen Frage entspricht die Übersetzung der weniger wahrscheinlichen Bedeutung:

Which horse do you want to win?

Welches Pferd wollen Sie gewinnen?

Übersetzungsalternativen

Sätze können oft auf mehr als eine Weise übersetzt werden. translate bewertet solche unterschiedlichen Möglichkeiten und gibt üblicherweise die Übersetzung aus, die am besten bewertet wurde. Es kann vorkommen, dass diese Bewertung nicht mit Ihren Wünschen übereinstimmt. Dafür gibt es in translate die Möglichkeit, Alternativen erzeugen und anzeigen zu lassen:

They complained to the guide that they could not see.

Sie beklagten sich beim Führer darüber, dass sie nicht sehen konnten.
Sie beschwerten sich beim Führer, den sie nicht sehen konnten.
Sie klagten zum Führer darüber, dass sie nicht sehen konnten.

She saw John leaving.

Sie sah John gehen.
Sie sah John, als sie ging.

Die Führung wählt das Team.

The leadership chooses the team.
The team chooses the leadership.

Einflussnahme auf das Übersetzungsergebnis

translate besitzt mehrere Übersetzungsoptionen, deren Einstellungen starke Auswirkungen auf die Übersetzung haben. Aber auch die Möglichkeit Wörter im Zusammenhang mit bestimmten Sachgebieten anders zu übersetzen als im alltäglichen Sprachgebrauch, ist ein wesentlicher Vorzug von translate. Man denke nur an das englische Wort enter; Im Allgemeinen wird es in der Bedeutung betreten gebraucht, beim Umgang mit Computern muss es aber als eingeben übersetzt werden.

  • Sachgebiete
  • Unpersönlicher Imperativ
  • Unpersönliche Aufforderung mit Imperativ übersetzen
  • Sie mit you statt mit they übersetzen
  • You mit du statt mit Sie übersetzen
  • Bezug von Pronomina erkennen
  • Zeilenumbruch als Satzende
  • Amerikanisches Englisch / Britisches Englisch
  • Übersetzungsalternativen erzeugen
  • Zeitbegrenzung pro Satz

Rechtschreibung

In translate wird angestrebt, die Regeln der deutschen und englischen Rechtschreibung und Zeichensetzung bei der Erzeugung von Übersetzungen einzuhalten. Dabei kommen vereinzelt Fehler vor, teilweise bedingt durch besondere Kontexte, teilweise durch Kodierungsfehler, die nicht rechtzeitig entdeckt werden konnten. Für das Deutsche steht sowohl die bisherige als auch die neue deutsche Rechtschreibung zur Verfügung. Die neue deutsche Rechtschreibung zeichnet sich dadurch aus, dass eine große Zahl von Schreibvarianten eingeführt wurden, so dass man je nach Geschmack seinen Schreibstil finden kann. Allerdings sollte man innerhalb eines Texts einheitlich verfahren. Aus diesen Gründen stellt der translate eine Reihe von Wahlmöglichkeiten bereit, damit Sie Ihren gewünschten Stil möglichst gut und konsistent realisieren können.

Auf der ausgangssprachlichen Seite wurde versucht, mit der Rechtschreibung liberal umzugehen, soweit dadurch keine Mehrdeutigkeiten entstehen. Das gilt besonders für Groß- und Kleinschreibung und Getrennt- und Zusammenschreibung. Für die Kommasetzung wurde eine Wahlmöglichkeit eingeführt zwischen alter und neuer („liberaler“) Regelung.

Im allgemeinen schreibt der Chef richtig.
Im Allgemeinen schreibt der Chef richtig.

The boss generally writes correctly.

Der Brief ist verlorengegangen.
Der Brief ist verloren gegangen.

The letter has been lost.

Er weiß, daß die Maße stimmen.
Er weiß, dass die Maße stimmen.

He knows that the measures are correct.