Praxistest „Was ist ein Wort?“ – Jedes System zählt anders

Viele Übersetzer rechnen heute ihre Leistung auf Wortbasis ab. Lange Jahre galt in Deutschland eine Abrechnung nach der übersetzten Zeile, aber die Verbreitung von Translation-Memory-Systemen seit Beginn der 1990er Jahre führte bei vielen zu einer Umstellung des Abrechnungsmodus.

Übersetzer und Auftraggeber vereinbaren Preise für die Wörter der Ausgangssprache und Abschläge für die Wiederverwendung von Übersetzungen aus dem Translation Memory (TM). Ein Vorteil dieser Abrechnung liegt darin, dass die Kosten bereits vor Beginn der Übersetzung bekannt sind.

Für die genaue Ermittlung der unterschiedlichen Wortkategorien verfügen die TM-Tools über Analysefunktionen, die jedes Segment (entspricht meistens einem Satz im Dokument) mit den Übersetzungen aus dem Übersetzungsspeicher vergleichen. Daraus ergeben sich in der Regel fünf Kategorien:

Kontext-Matches: Exakte Treffer aus dem TM, bei denen es noch zusätzlich einen Treffer vor und bei einigen TMS auch einen Treffer nach dem Segment gibt.
100%-Matches: Exakte Treffer aus dem TM.
Interne Wiederholungen: Segmente, die sich innerhalb vom Dokument wiederholen.
Fuzzy Matches: ähnliche Übersetzungen mit verschiedenen Untergruppen mit einem Ähnlichkeitsfaktor von 95-99 %, 85-94 % usw.
No Matches: komplett neue Segmente.

Das Wort „Match“ steht für Treffer aus dem Übersetzungsspeicher. Jedes Übersetzungssystem verwendet dabei seine eigene Terminologie. So spricht MemoQ von „101%“ Matches, wenn es um Kontext-Matches geht.

Das Problem: Jedes System zählt anders

Nun würde man erwarten, dass die Analyse immer gleich ist, egal welches TM-System und welche Programmversion eingesetzt wird. Die Wirklichkeit ist aber anders. Es gibt nicht nur Unterschiede in der Zählweise der einzelnen Systeme, sondern es gibt manchmal auch zwischen verschiedenen Versionen ein und desselben Programms unterschiedliche Zählungen.

Dies liegt im Wesentlichen an der Art und Weise, wie die Systeme Segmente miteinander vergleichen und wie die Worterkennungsalgorithmen im Einzelnen programmiert sind. In den meisten Fällen sind die Zählungsschwankungen nicht enorm, wobei sie sich aber immerhin im Rahmen von 1 bis 3 % bewegen können.

Bei manchen Texttypen, in denen bestimmte Wortmuster verstärkt vorkommen, etwa bei Katalogen, können diese Schwankungen allerdings größer werden, was nicht unwichtig ist, wenn man weiß, dass Preisentscheidungen manchmal auf der Basis einiger weniger Prozente Unterschied getroffen werden.

Praxistest

Grund genug, sich mit einigen Details der Wortzählung zu beschäftigen. Was wird unterschiedlich bewertet? Um dies zu ermitteln, nehmen wir einen kleinen Text aus 6 Zeilen und lassen ihn von einigen Programmen zählen:

Die Zählung mit MemoQ, SDL Studio 2014, Transit NXT und Microsoft Word 2013 ergab folgendes Ergebnis:

Datum bzw. Zahlen: Austauschbare Angaben wie „24. März 2014“ werden von den einzelnen Analysealgorithmen unterschiedlich erkannt. Manche betrachten diese Angaben wie normale Wörter, andere ganz oder teilweise als Nicht-Wörter, denn sie werden vom Übersetzungsprogramm automatisch ausgetauscht.
Wörter mit Bindestrichen oder Schrägstrichen werden von einzelnen Systemen als zwei Wörter gezählt.
Felder und Hyperlinks werden teils als austauschbare Einheiten („placeables“), teils als normale Wörter gezählt.
Aufzählungen bzw. nummerierte Aufzählungen: Manche Programme zählen die Zeichen bzw. Zahlen mit.

Die Zählunterschiede sind im Normalfall nicht dramatisch, aber es ist nützlich, die Gründe zu verstehen. Um etwaige Diskussionen zwischen Partnern zu vermeiden, kann man beispielsweise im Voraus festlegen, mit welchem Programm und mit welchen Einstellungen gezählt wird.

[Text: D.O.G. Dokumentation ohne Grenzen GmbH. Quelle: D.O.G. news, 02/2014. Wiedergabe mit freundlicher Genehmigung von Dr. François Massion. Bild: D.O.G. GmbH.]