Informative Übersetzung

So wird von uns die Möglichkeit bezeichnet, ganze Sätze sowie Artikel aus einer in eine andere Sprache zu übersetzen. Es handelt sich zwar noch nicht um eine Übersetzung und es wird auch noch einige Zeit dauern, bis sie perfekt ist, aber sie ermöglicht es den Lesern auf allgemeinem Niveau zu verstehen, um was es in dem betreffenden Artikel oder auf der Webseite geht. Zum gegenwärtigen Zeitpunkt wird diese Möglichkeit von uns für Übersetzungen aus dem Englischen ins Deutsche oder Tschechische angeboten. Die Qualität einer Übersetzung aus dem Englischen ist mit anderen Projekten von Google Translate und Microsoft Bing vergleichbar, die Qualität einer Übersetzung aus dem Deutschen ist etwas besser - und dies aus dem Grund, da die Übersetzung direkt aus dem Deutschen ins Tschechische erfolgt und nicht über Englisch, so wie dies von Werkzeugen von amerikanischen Firmen erfolgt.

Sprachteil

Zu diesem Zweck sind ein Wörterbuch und die Morphologie allein nicht ausreichend. Im Rahmen der Lösung müssen drei Grundprobleme berücksichtigt werden:

  1. Die Auswahl der richtigen Bedeutung, was alle mehrsprachigen Wörterbücher betrifft.
  2. Die Wortreihenfolge im Satz, z. B. im Englischen ist die Wortreihenfolge mehr oder weniger gegeben, im Tschechischen ist sie frei wählbar.
  3. Die Idiomatik sowie die weiteren atypischen Eigenschaften der einzelnen Sprachen.

So hat man bei einer Übersetzung von ganzen Sätzen die Sprache in ihrer ganzen Schönheit sowie Geschichte vor sich, aber leider auch in Bezug auf ihre Zusammensetzung.  Die Entwicklung von Übersetzungswerkzeugen hat in den letzten Jahren bei der Suche nach einer perfekten theoretischen Sprachbeschreibung teilweise resigniert und sich in den Bereich Statistik und Korpora verlagert.  Den Maschinenübersetzungsprozess können Sie sich einfach in der Form vorstellen, dass auf einen großen Haufen parallele Sätze von dem betreffenden Sprachpaar gegeben werden - also z. B. aus dem Englischen und Tschechischen, welche von einem wirklichen Übersetzer übersetzt wurden, wodurch mit hoher Wahrscheinlichkeit davon ausgegangen werden kann, dass diese bis auf Ausnahmen korrekt sind.  Sofern dieses parallele Korpus ausreichend groß ist, verlieren sich auch diese teilweisen Fehler im Meer der anderen korrekt übersetzten Texte.  Aus diesem Korpus wird dann programmtechnisch das sog. Übersetzungsmodell von uns erstellt, durch welches generell beschrieben wird, wie die Satzteile aus der Ausgangssprache in die Zielsprache zu übertragen sind. Dann nimmt man einen noch größeren Haufen mit Texten aus der Zielsprache - also in unserem Fall aus dem Tschechischen. Aus diesem Korpus wird dann das sog. Sprachmodell erstellt, durch welches einfach gesagt beschrieben wird, wie die korrekt gebildeten tschechischen Sätze aussehen. Und über beiden Modellen arbeitet dann ein Programm, welches sich über statistische Methoden unter allen Möglichkeiten die scheinbar Beste auswählt.

Es muss aber zugestanden werden, dass der gegenwärtige Entwicklungsstatus bei uns sowie auch weltweit nicht ausreicht, dass das Ergebnis eine derartige Qualität aufweist, dass es den Übersetzer ersetzt.  Die natürliche lebendige Sprache ist einfach derart schwierig sowie Sprachen wie Englisch und Tschechisch derart prinzipiell unterschiedlich, dass das jetzige Werkzeug gut als informative Übersetzung dient, für den eigentlichen Übersetzungsprozess aber nur von geringer Bedeutung ist, hierfür dienen die sog. CAT-Werkzeuge. 

Programmlösung

Für die statistische Übersetzung wird von uns zum gegenwärtigen Zeitpunkt das Moses-Werkzeug verwendet, welches das Ergebnis der langjährigen Entwicklung von einigen europäischen Universitäten unter Federführung der University of Edinburgh ist. Dieses bietet eine Grundplattform und durch das Hinzufügen von Übersetzungs- und Sprachmodellen und der entsprechenden Konfiguration entsteht aus diesem ein funktionierendes Übersetzungssystem. Die Größe der Modelle sowie Konfigurationen sind aufgrund der Hardware-Anforderungen gegeben. Eine einfache Konfiguration mit kleinen Modellen kann auch an hardwareseitig relativ begrenzten Anlagen arbeiten, nichtsdestotrotz lassen sich in Bezug auf deren Ausgabe keine Wunder erwarten. Durch eine komplizierte Konfiguration oder durch eine Konfiguration mit zu großen Modellen kann andernfalls ein einziger Satz auch auf einem Spitzenserver unzulässig lange übersetzt werden. Für Konfigurationen, mit welchen gute Ausgänge erreicht werden, ist ein Speicher mit vielen GB erforderlich. Bei der Hardware-Konfiguration kann es sich somit tatsächlich um einen Faktor handeln, durch welchen die Qualität sowie das Tempo der Übersetzung begrenzt wird. Übersetzungs-und Sprachmodelle werden von uns maßgerecht dementsprechend vorbereitet, welche Texte übersetzt werden. In diesem Fall ist von der sog. Domäne die Rede bzw. von der Textdomäne für die Automobilindustrie. Je enger die Domäne ist und je größer die verfügbaren Übersetzungs- und Sprachkorpora sind, desto hochwertiger ist die Übersetzung. Im Rahmen der Vorbereitung von Vorteilsmodellen werden von uns auch eigene Korpora, Übersetzungswörterbücher, Terminologie-Datenbanken sowie Morphologie und Techniken in Kombination verwendet, wodurch wir bessere Ergebnisse bei kleineren Modellen erzielen können.