Des Widerspenstigen Zähmung: clarat und der Google-Translator
Julia Naji,
clarat soll für jeden leicht zugänglich sein. Das ist eines unserer großen Prinzipien. Jeder, der clarat.org nutzen möchte, soll das ohne Hilfestellung können. Deshalb schreiben wir unsere Texte in einer Einfachen Sprache. Unsere Sätze sind kurz und unkompliziert, unsere Wortwahl schlicht und auf den Punkt, komplexe Begriffe werden aufgelöst oder erklärt. Dadurch ist clarat für alle unsere Nutzer leicht zu verstehen. Und auch ein automatischer Translator wie Google-Translate kann etwas mit unseren Texten anfangen.

Wir haben uns also entschieden, Google-Translate als festes Übersetzungstool für clarat family und clarat refugees zu verwenden. clarat.org konnte so schon früh mehrsprachig werden.

Besonders für Nutzer von clarat refugees ist das auch dringend nötig. Denn viele können noch kein Deutsch. Translator-Übersetzungen sind aber sprachlich nicht perfekt und manchmal unverständlich. Deshalb sollte clarat refugees zumindest in Englisch und Arabisch 100% verständlich sein.

Aber wie können wir diesem Anspruch gerecht werden? Doch mit Übersetzungen von Hand? Diese brauchen viel Zeit. Wir wollen aber schnell helfen. Und effizient. Google-Übersetzungen erlauben es uns, sowohl unsere Geschwindigkeit als auch unsere Flexibilität voll aufrecht zu erhalten. Gehen wir also mit unserem ersten Instinkt: Wir sind pragmatisch. Uns reicht, was hilft. Aber: Hohe Fehlerquoten kommen bei clarat refugees für uns nicht in Frage. Wir müssen den Google-Translator also irgendwie zähmen.

Und wir haben herausgefunden, wie das geht.

Wie arbeitet der Google-Translator?
Der Google-Translator generiert eine sogenannte Statistical Machine Translation. Er analysiert große Mengen bilingualer Texte und ermittelt daraus Übersetzungshäufigkeiten. Sprich: Er analysiert, welches Wort oder welche Phrase in welchem Kontext am häufigsten von Menschen wie übersetzt worden ist. Auf der Basis dieser Analyse trifft er seine Übersetzungsentscheidungen. Ganz ohne eigene Grammatik-Kenntnisse. Ein tolles Konzept, weil es einen Bezug zum echten Leben hat und flexibel ist, weil es schnell dazulernen kann und weil es Ungewöhnliches, wie umgangssprachliche Phrasen und Redewendungen, bei ausreichender Datenmenge relativ problemlos integriert.

Zumindest in der Theorie.

Im Nutzeralltag zeigt die Statistical Machine Translation schnell ihre Hörner. Zum einen übersetzt der Translator – bis auf wenige Ausnahmen – erst einmal alles ins Englische und dann in die Zielsprache. Eine Übersetzung beispielsweise vom Deutschen ins Arabische ist also immer eine Übersetzung vom Deutschen ins Englische ins Arabische. Das potenziert zwangsläufig die Fehleranfälligkeit. Zum anderen hat der Translator, wie oben beschrieben, kein eigenes Regelwissen, und deshalb sind die Fehler, die er macht, weder leicht berechenbar noch leicht auszubessern. Eine Berechenbarkeit der Übersetzungen kann also nur „empirisch“ entstehen: durch hunderte Tests und daraus entwickelte Beobachtungen.
Und es gibt noch einen weiteren Stolperstein: Die statistischen Werte, die einer Übersetzung zugrunde liegen, verändern sich ständig, weil die Datenbank fortlaufend befüllt wird. Was also einmal gut übersetzt worden ist, kann nach einer Weile, aufgrund der plötzlichen Dominanz anderer statistischer Werte, nicht mehr funktionieren.

Sind diese Biester zu bändigen? Oder wird man bei der Arbeit mit Google-Translate zum Sisyphos? Bei clarat haben eine Antwort auf diese Fragen gefunden.

Das Konzept Controlled Language
Controlled Language ist im Bereich Technik ein schon länger bekanntes Konzept zur Vereinfachung von Übersetzungs-Prozessen. Die Idee: Texte werden erst einmal vereinfacht und vereinheitlicht. Entweder auf der Basis einer Einfachen Sprache oder angelehnt an die Bedürfnisse eines spezifischen automatischen Übersetzers (Google o.ä.). Im Anschluss wird automatisch übersetzt und, wenn Ressourcen vorhanden, die schon passablen Übersetzungen noch einmal von Hand verbessert.

Wie entsteht eine Controlled Language?
Wir müssen also für clarat refugees eine kontrollierte Sprache entwickeln, deren Übersetzungen möglichst ohne Nachkorrektur zumindest auf Englisch gut funktionieren. Aber: Schon die bloße Verständlichkeit kann je nach Kontext ein hehres Ziel sein. Vor allem, wenn man Arabisch mitdenkt. Der Google-Translator kann schon beeindruckend viel, aber die Tatsache, dass Arabisch und Englisch bzw. Deutsch so grundverschiedene grammatische Gene haben, macht es auch einer Statistical Machine Translation schwer.

Wir haben uns während der letzten Monate damit beschäftigt, herauszufinden, was den Google-Translator verwirrt und was er zuverlässig beherrscht. Wir haben Test über Test gemacht und aus unseren Erfahrungen gelernt. Auf zwei verschiedenen Ebenen: Erstens haben wir gelernt, welche Möglichkeiten es gibt, einen deutschen Satz zu verändern, ohne ihn inhaltlich zu verziehen. Zweitens haben wir gelernt, welche grammatischen Formen bzw. sprachlichen Wendungen im Deutschen die Fehlerquote in den Zielsprachen Englisch bzw. Arabisch erhöhen. Daraus haben wir eine Translatorgrammatik entwickelt, die es jedem unserer Mitarbeiter ermöglicht, schon im Prozess des Schreibens die Stolpersteine aus dem Weg zu räumen, die den Google-Translator am häufigsten zu Fall bringen.

clarats Translator-Code
Viele dieser Stolpersteine lassen sich tatsächlich ganz genau benennen. Hier einige Beispiele, die die Dimension darstellen, auf der wir uns beim Zähmen des Google-Translators bewegen:
Ein Favorit sind trennbare Verben, die mit einer Präposition beginnen (z.B. vorbei-gehen). Der Translator kann die Zusammengehörigkeit der beiden Wortteile oft nicht erkennen. Aus Deutsch: Komm einfach beim Flüchtlingstreff vorbei. wird Englisch: Just come along with refugee fail. Nicht zu verstehen. Wir brauchen ein anderes Verb. Beispielsweise verkürzt auf Deutsch: Komm einfach zu dem Treffen für Flüchtlinge. Oder: Gehe einfach zu dem Treffen für Flüchtlinge. Daraus wird auf Englisch: Just go to the meeting for refugees. Und es ist auch auf Arabisch gut zu verstehen.

Weitere Beispiele betreffen den Satzbau und die Wortwahl. Vor allem Homonyme sind eine Herausforderung, also Wörter, die völlig unterschiedliche Bedeutungen haben. So zum Beispiel Kurs mit den Bedeutungsdimensionen: Unterricht, Preis, Aktienkurs, Weg. Im besten Fall macht der Translator aus Kurs auf Englisch course, was auf Arabisch aber als of course missverstanden wird. Also Deutsch: Sie sagt dir auch, was der Kurs kostet. ist Englisch: She also tells you what the course costs. Auf Arabisch geht es dann plötzlich um natürliche Kosten. Und es gibt noch verrücktere Kandidaten. Aus der Babyklappe wird auf Englisch babydrop, was Russisch noch einmal zu Baby-Gulli steigert. Die Kleiderkammer wird schon mal zum dressingroom. Und das coming-out auf Arabisch zum Kommen und Gehen. Hier müssen Synonyme her. Oder Worterweiterungen, die die Bedeutung der Begriffe eindeutig klären. Wie Deutschkurs statt Kurs, Kleiderspende statt Kleiderkammer. Wir sammeln diese und setzen sie in feste Textbausteine, die unsere Mitarbeiter sicher nutzen können.

Improving what already works
Wer den Translator nutzen möchte, um auf Deutsch geschriebene Texte in anderen Sprachen lesbar zu machen, tut gut daran, Stolpersteine wie die oben genannten im Blick zu haben. Unsere Controlled Language tut das. Und sie produziert schon sehr gute Ergebnisse. Was wir in Zukunft tun werden, ist also nur noch Kür: Wir möchten die Übersetzungen noch besser machen, indem wir ihnen einen Feinschliff geben. Alle Texte werden von Muttersprachlern für die wichtigsten Sprachen geprüft, noch vorhandene Fehler herausgekürzt und nicht 100% Verständliches 100% verständlich gemacht. Bei den guten Vorlagen geht das in Lichtgeschwindigkeit. Wir freuen uns schon auf die Ergebnisse. Und auf ein clarat, das mehr denn je für jeden verständlich ist.

pageview counter pixel