XML als Basis von DITA, XLIFF, TMX und TBX – Was Übersetzer zu diesen Dateiformaten wissen sollten

XMLWenn es etwas gibt, woran es in der Informationsbranche nicht mangelt, dann sind es wohl die vielen Abkürzungen. XML, CMS, TMS, XSLT, MÜ, VR, HMI, PIM, OWL, DITA … Die Liste könnte ganze Seiten füllen.

Die Abkürzung XML (eXtensible Markup Language, erweiterbare Auszeichnungssprache) beschreibt einen Grundstein moderner Informationstechnologien.

Aber was genau ist XML, wo findet man es und was können technische Redakteure oder Übersetzer damit anfangen?

Textinhalt und Formatierung werden voneinander getrennt

Um besser zu verstehen, was XML ist, muss man zuerst etwas weiter zurückblicken. Mit der Verbreitung elektronischer Dokumente entstand in den 1970er Jahren der Wunsch, Texte und Formatinformationen voneinander zu trennen.

Von GML (1969) zu SGML (1986)

Im Jahr 1969 und in den darauffolgenden Jahren entwickelten drei IBM-Mitarbeiter, Charles Goldfarb, Edward Mosher und Raymond Lorie, die erste Aufzeichnungssprache, die Formatinformationen getrennt von Text beschrieb. Diese Sprache wurde nach den Anfangsbuchstaben der Nachnamen der drei Entwickler GML genannt, was später als „Generalized Markup Language“ interpretiert wurde.

GML wurde weiterentwickelt und führte 1986 zur Verabschiedung der SGML-Norm ISO 8879 (Standard Generalized Markup Language), die den Aufbau einer standardisierten Aufzeichnungssprache definierte. Damit sollten Text und weitere Informationen wie Format- aber auch semantische Informationen voneinander getrennt werden.

Jedes SGML-Dokument verweist auf eine Datei, eine DTD (Dokument-Typ-Definition), die die Struktur, die Entitäten (Entities = Kurzformen für eine Wortgruppe oder Referenz auf Sonderzeichen) und die zulässigen Elemente aller SGML-Dateien eines bestimmten Typs beschreibt.

Die Einführung von SGML war eine Revolution für die Dokumentationsbranche:

  • Dokumente lagen als Textdatei vor und waren plattformunabhängig austauschbar.
  • Die Struktur der Information konnte auf ihre Richtigkeit geprüft werden.
  • Informationen ließen sich aus Dokumenten ähnlich wie aus einer Datenbank extrahieren.

XML (ab 1998) als Web-tauglicher Subset von SGML

XMLVor allem durch die Verbreitung des Internets entstand der Bedarf an einer etwas flexibleren und webfähigen Auszeichnungssprache.

So wurde 1998 vom World Wide Web Consortium (W3C) die erste Version von XML als Subset von SGML verabschiedet.

Momentan gilt die Version XML 1.1 von September 2006. Strukturinformationen können bei XML-Dateien entweder in Form einer DTD oder als XML-Schema angegeben werden. Ein XML-Schema ist im Gegensatz zur DTD eine XML-Datei. Sie beschreibt die Struktur des XML-Dokuments.

XML-Dokumente müssen nicht zwingend mit einer DTD oder mit einem XML-Schema abgeglichen werden. Sie werden dann nicht auf ihre Gültigkeit (valid documents), sondern nur auf ihre Wohlgeformtheit (well-formed documents) überprüft.

Merkmale von XML-Dokumenten

Wichtigste Merkmale von XML-Dokumenten sind:

  • Sie haben ein Wurzelelement.
  • Elemente haben Anfangs- und End-Tags, die sie in eckigen Klammern umschließen: (z. B. <terminologieeintrag>Druckventil</terminologieeintrag>). Elemente können verschachtelt sein.
  • Elemente können Attribute haben. Allerdings sind mehrere Attribute mit demselben Namen nicht zulässig. Attributeigenschaften stehen in Anführungszeichen.
  • Anfangs- und End-Tags berücksichtigen die Groß- und Kleinschreibung.

Extrahierung von Daten mit Abfragesprachen wie XQuery

Daten können aus XML-Dokumenten mithilfe einer Abfragesprache wie XQuery extrahiert werden (z. B. „Welche Prozeduren betreffen den Teil XYZ?“).

Mit einer Transformationssprache wie XSLT kann ein XML-Dokument oder Teile davon in ein anderes Dokument (z. B. ein XML-, HTML- oder Textdokument) umgewandelt werden.

XML-basierte Formate sind unter anderem DITA, XLIFF, TMX und TBX

In der technischen Dokumentation sind z. B. folgende Sprachen XML-basiert und jedem Übersetzer zumindest als Abkürzung geläufig:

  • DITA (Darwin Information Typing Architecture) dient zur Erstellung und Organisation von Topic-basierten Informationen.
  • XLIFF (Localization Interchange File Format) und die verwandten Dialekte für Übersetzungsdateien.
  • TMX (Translation Memory eXchange) für Translation-Memorys.
  • TBX (TermBase eXchange) für Terminologiebestände.

Aus einer Datei lassen sich verschiedene Ausgabeformate generieren

Für technische Redakteure bietet XML die Chance, zum einen aus einer Datei unterschiedliche Formate (Druck, Web, ePub usw.) zu generieren und zum anderen Inhalte mit einer Reihe von Metainformationen anzureichern.

Diese Metainformationen, die in den Elementen und Attributen enthalten sind, können die Formatierung (z. B. Überschrift), die Verwaltung (z. B. Bearbeitungsstatus) oder die Semantik (Prozedur, Schritt, Ergebnis) betreffen.

Es ist daher möglich, über Attribute Inhalte für unterschiedliche Zielgruppen zu veröffentlichen. Dieses Prinzip machen sich die Content-Management-Systeme zunutze.

XML – ideal für mehrsprachige Inhalte

XML eignet sich bestens für mehrsprachige Inhalte. Es verwendet standardmäßig Unicode UTF-8 und bietet die Möglichkeit, Informationen für den Übersetzungsprozess zu verwalten. Hierzu gehören z. B. die Sprache (das Attribut xml:lang), der Segmentstatus oder die Übersetzungsherkunft.

Das Internationalization Tag Set (ITS) wurde durch das World Wide Web Consortium zu Lokalisierungszwecken entwickelt. Es beschreibt Tags wie die Sprachrichtung (von links nach rechts oder umgekehrt), die Übersetzbarkeit von Elementen, Notizen für den Übersetzer oder Terminologieeinträge.

Besonderheiten bei der Übersetzung von XML-Dateien

Bei der Lokalisierung von XML-Dateien müssen Übersetzer vor allem Folgendes beachten:

  • Die Codierung der Datei muss stimmen.
  • Die Reihenfolge der Tags muss stimmen, denn eine geänderte Reihenfolge kann dazu führen, dass die übersetzte XML-Datei nicht mehr valid ist.
  • Elementnamen dürfen nicht übersetzt werden. Bei den Attributen muss der Übersetzer prüfen, welche übersetzt werden dürfen.

XML hat sich wegen zahlreicher Vorteile als Datenformat etabliert

XML hat sich inzwischen als Datenformat in der technischen Redaktion und in der Übersetzungsbranche etabliert. Es bietet eine Reihe von Vorteilen, die alle Beteiligten noch intensiver als bisher verwenden könnten und sollten, um ihre Abläufe zu optimieren.

Gute XML-Kenntnisse sind daher ein wichtiger Baustein in der Qualifikation von technischen Redakteuren und Übersetzern.

[Text: D.O.G. GmbH. Quelle: D.O.G. news 1/2017, Wiedergabe mit freundlicher Genehmigung von Dr. François Massion. Bild: dizain / Fotolia, vege / Fotolia.]

Leipziger Buchmesse 2024