Maschinelle Übersetzung: Technische Redakteure sollten lernen, maschinengerecht zu schreiben

Bild: Sergey / Fotolia Ein technischer Redakteur kann einem fast leidtun. Nachdem er zuerst lernen musste, was kontrollierte Sprache ist, musste er sich zusätzlich daran gewöhnen, übersetzungsgerecht zu formulieren. Nun kommt maschinengerechtes Schreiben hinzu. Das Lernen scheint kein Ende zu nehmen.

Diese neuen Anforderungen entstehen nicht aus reiner Freude an der Fortbildung von Redakteuren, sondern spiegeln neue Entwicklungen bei Informations- und Kommunikationstechnologien wider.

Seit einigen Jahren hat die künstliche Intelligenz in unserer Branche Einzug gehalten und beginnt, neue Trends zu prägen. Wir können beobachten, dass heute nicht ausschließlich Menschen an der Verarbeitung von Informationen in natürlicher Sprache beteiligt sind, sondern dass auch Softwareanwendungen wie Smart-Assistenten, Mensch-Maschinen-Schnittstellen oder Big-Data-Analyse-Programme solche Informationen verarbeiten.

Wir stehen am Anfang einer Entwicklung, die in den nächsten zehn Jahren deutlich an Momentum gewinnen wird. Es ist daher nur recht, dass Autoren sich über maschinengerechtes Schreiben Gedanken machen.

Maschinengerechtes Schreiben ist mehr als kontrollierte Sprache

Vieles beim maschinengerechten Schreiben ist bereits Bestandteil des Schreibens in kontrollierter Sprache. Aber maschinengerechtes Schreiben ist mehr. Um zu wissen, worauf Autoren zu achten haben, müssen wir zuerst verstehen, wie die heutigen Anwendungen vorgehen, welche die natürliche Sprache interpretieren.

Sie verwenden Verfahren der Computerlinguistik, bei der es primär darum geht, die einzelnen Sprachelemente zu identifizieren, sie in sinnvollen Sinneinheiten („[drehen + Sie] + [den + Regler] + [nach + links]“) zu gruppieren und semantisch anzureichern (z. B. mit Informationen über die Rolle der einzelnen Satzelemente wie Agent, Ziel oder Objekt einer Handlung o. ä.).

Um festzustellen, welche Wörter zusammengehören, bedienen sich diese Anwendungen verschiedener Mittel wie des Part-of-Speech-Tagging, statistischer und mathematischer Verfahren oder neuronaler Netze.

Diese Ansätze werden durch Wissensbestände (wie Ontologien oder Sammlungen von Named Entities = Eigennamen) und Trainingsdaten (annotierten Korpora) ergänzt. Fazit: Systeme können die Elemente und Muster am besten erkennen, die sie (1) bereits gelernt haben und die (2) eindeutig sind.

Was bedeutet das für die Arbeit von Redakteuren?

Im Grunde genommen heißt es, dass, sobald Redakteure den Pfad der Eindeutigkeit und der antrainierten Wortbedeutungen bzw. Syntaxregeln verlassen, die Systeme Schwierigkeiten bekommen, den beabsichtigten Sinn zuverlässig zu ermitteln. Je nachdem, wie maschinengerecht und standardisiert die Texte geschrieben sind, funktioniert dies mehr oder weniger erfolgreich.

Empfehlungen zur maschinengerechten Optimierung von Texten

In den folgenden Abschnitten fassen wir einige Beispiele zusammen und geben Empfehlungen, wie man Texte maschinengerecht optimieren kann.

Syntax: keine Schachtelsätze konstruieren

Die deutsche Syntax hat ihre Besonderheiten. Nicht wenige Aussagen fangen mit einem Nebensatz an, verschachtelte Konstruktionen erschweren das Verständnis. Daher gelten auch hier dieselben Regeln wie für das Schreiben in kontrollierter Sprache: Kurze Sätze, eine Handlung pro Satz, Aktivform und Beginn mit dem Hauptsatz. Wenn besondere Satzkonstruktionen für bestimmte Publikationsarten wie Kataloge erforderlich sind, muss das System sie zuerst lernen: „Zylinderschraube, verzinkt blau“.

Satzzeichen: strikt an Interpunktionsregeln halten

Satzzeichen helfen maschinellen Systemen, einen Satz zu strukturieren. Sie trennen Hauptsatz und Nebensatz. Sie geben an, wo der Satz endet oder sie trennen Elemente einer Auflistung.

So erhält ein Satz wie „Sie können den Wert (,) einer Variable zuordnen.“ ohne Komma eine ganz andere Bedeutung. Es ist daher wichtig, sich strikt an die üblichen Interpunktionsregeln zu halten.

Präpositionen oft nicht eindeutig

Viele Präpositionen sind in der deutschen Sprache nicht eindeutig. Sie können beispielsweise gleichzeitig temporal, lokal oder räumlich verstanden werden. Eine Präposition wie „bei“ kann eine Software im Sinne von „während“, „mittels“, „im Falle von“, „für“ und einiges mehr verstehen.

Oft kann der Mensch aufgrund seines Allgemeinwissens die Aussage richtig interpretieren, aber das ist bei Maschinen viel seltener der Fall. Daher muss der Redakteur speziell bei Präpositionen überlegen, wie sie eventuell sonst ausgelegt werden könnten.

Wer das testen möchte, kann seinen Satz in ein automatisches Übersetzungsprogramm wie Google Translate eingeben und sehen, ob die Übersetzung sinngemäß korrekt ist.
Hier ein kleines Beispiel, aus dem ersichtlich ist, dass die Maschine zum falschen Ergebnis gekommen ist:

Deutsch: Bei gedrückter Taste bedienen Sie den Steuerkreis durch seitliches Bewegen des Joysticks.
MÜ-Englisch: Press the button to operate the control circuit by moving the joystick sideways.
MÜ-Rückübersetzung: Drücken Sie die Taste, um den Steuerkreis zu betätigen, indem Sie den Joystick seitwärts bewegen.

Auch in Bezug auf die Syntax sind Präpositionen, die zwei Substantive verbinden, manchmal problematisch, weil sie mehrere syntaktische Wortgruppenkombinationen zulassen.

So kann eine Software den Satz „Verbinden Sie das Gerät mit dem RJ-45-Anschluss“ als „Gerät mit Anschluss“ oder „Verbinden mit Anschluss“ auslegen. Eine etwas humorvollere Variante ist das Warnschild der Polizeidirektion Limburg-Weilburg: „Dieser Bereich wird zur Verhütung von Straftaten durch die Polizei videoüberwacht“.

Besonders tückisch: Polysemie

Zu den größten Fehlerquellen bei der maschinellen Interpretation natürlicher Sprache gehören Wörter, die eine Vielzahl von Bedeutungen haben können (Polysemie). Je verbreiteter die Wörter, desto größer sind die Chancen, dass sie mehrdeutig sind.

Da maschinelle Programme ihre Interpretation oft statistisch ermitteln, bevorzugen sie die gängigen Bedeutungen. Das gilt vor allem für Wörter oder Verben der Alltagssprache, die in vielerlei Zusammenhängen vorkommen.

Auch hier empfiehlt es sich, für bestimmte wiederkehrende Situationen oder Handlungen immer die gleichen Formulierungen und Verben zu verwenden und festzulegen. Die Software, die natürliche Sprache verstehen soll, kann sie dann leichter lernen.

Komposita Quelle für Mehrdeutigkeiten

Komposita sind in der deutschen Sprache sehr beliebt und bilden ebenfalls eine Quelle für Mehrdeutigkeiten. Bei Komposita, die auf einem Verb basieren, kann oft sowohl ein Genitivartikel als auch eine Präposition als ungeschriebenes Bindeglied zwischen seinen Bestandteilen stehen.

Was bedeutet eigentlich „Sensorüberwachung“: „Überwachung eines Sensors“ oder „Überwachung mittels Sensor“? Manchmal entscheidet der Kontext oder das Produktwissen darüber.

Verben mit Präpositionen problematisch

Verben mit Präpositionen wie „zunehmen“ sind aufgrund der Besonderheiten der deutschen Grammatik für maschinelle Systeme ebenfalls problematisch, denn Präposition und Hauptverb sind oft durch mehrere Wörter voneinander getrennt.

Es ist daher besser, wenn der Autor Synonyme einsetzt, die aus einem Verb bestehen: nicht „Rufen Sie das Programm auf“, sondern „Starten Sie das Programm“.

Kontextabhängige Aussagen

Schließlich spielt der Kontext für das Verständnis einer Aussage eine große Bedeutung. Da Programme, die einen Text in natürlicher Sprache verstehen sollen, in der Regel den Text Satz für Satz zerlegen, haben sie mit kontextabhängigen Aussagen Schwierigkeiten: „Schrauben Sie ihn gemäß Abbildung fest“.

Maschinengerechtes Schreiben bedeutet also, dass, aus dem Satz heraus, die Software erkennen muss, was gemeint ist. Das gilt vor allem für Bedeutungen, die für die Bedienung bzw. für die Sicherheit des Anwenders oder der Anlage wichtig sind.

Softwareanwendungen haben folglich andere Verständnisprobleme als Menschen, und diese Besonderheiten müssen in einem Redaktionsleitfaden berücksichtigt werden.

Maschinengerechtes Schreiben steht noch in Anfängen – Bedeutung nimmt aber zu

Das maschinengerechte Schreiben steht noch in den Anfängen. Es ist aber damit zu rechnen, dass solche Anforderungen in den kommenden Jahren öfters zum Einsatz kommen werden.

Durch die Fortschritte der künstlichen Intelligenz zum einen und den zunehmenden Bedarf nach Informationen zum anderen, werden maschinengerechte Texte benötigt, um Ergebnisse maschineller Übersetzungen zu optimieren, um Informationen aus Inhalten automatisch zu extrahieren und zu verarbeiten, oder auch um neue Informationen zu generieren.

Hieraus können sich neue Aufgaben und Chancen für Redakteure mit Spezialwissen entwickeln.

[Text: D.O.G. GmbH, www.dog-gmbh.de. Quelle: D.O.G. news 4/2017, Wiedergabe mit freundlicher Genehmigung von Dr. François Massion.]