Terminologieextraktion mit AntConc: Leitfaden für Übersetzer und technische Redakteure (Teil 1)

Ameise
AntConc ist kostenlos erhältlich. Der Name leitet sich aus den Bestandteilen Ant und Concordance ab. "A freeware corpus analysis toolkit for concordancing and text analysis." - Bild: Clker-Free-Vector-Images / Pixabay

Eine klare und verständliche Kommunikation von technischen und fachlichen Sachverhalten in verschiedenen Sprachen ist eine der Hauptaufgaben von Übersetzern und technischen Redakteuren. In diesem Zusammenhang ist die Verwendung einer korrekten und präzisen Terminologie nicht nur wünschenswert, sondern für die Qualität der mehrsprachigen Kommunikation unerlässlich.

Übersetzer und Redakteure sind sich bewusst, wie wichtig die Analyse von Referenzmaterial und die Recherche und Extraktion von Fachterminologie sind. Allerdings fehlt es ihnen oft an Ressourcen, etablierten Verfahren und Standardtools.

Mit diesem Blogbeitrag setzen wir unsere Artikelserie zur Terminologieextraktion fort. Hier möchten wir auf diese Herausforderungen eingehen und zeigen, wie das Programm AntConc praktische Lösungen für die Textkorpusanalyse und Terminologieextraktion bietet.

Wichtigste Herausforderungen bei Terminologieextraktion

Die Terminologieextraktion bedeutet für die meisten Übersetzer und Redakteure drei Herausforderungen: Arbeitsaufwand, Fehlen von Standardverfahren, Kosten.

  1. Arbeitsaufwand: Wenn Terminologie nicht systematisch extrahiert und verwaltet wird, führt dies in der Regel zu mehr Arbeit und Kosten bei der Erstellung und Übersetzung von Texten. Viele Projekte werden jedoch unter Zeitdruck abgewickelt. Aus diesem Grund fehlt Redakteuren und Übersetzern oft die Zeit für eine vorbereitende Terminologiearbeit zu Beginn eines Projekts.
  2. Fehlende Standardverfahren: Es gibt keine weit verbreiteten und allgemein akzeptierten Arbeitsverfahren oder Tools für die Terminologieextraktion. Infolgedessen wird die Terminologieextraktion in vielen Fällen immer noch manuell durchgeführt, und nur die nötigste Terminologie wird extrahiert.
  3. Kosten: Das Extrahieren und Organisieren von Terminologie ist mit Arbeit verbunden. Selbst wenn sich dadurch zu einem späteren Zeitpunkt Vorteile und Einsparungen ergeben, müssen diese Kosten zunächst erklärt und finanziert werden. Allzu oft genehmigen die Vorgesetzten die Terminologiearbeit nicht oder stellen nur unzureichende Mittel zur Verfügung.

Gelegentliche und systematische Terminologiearbeit

Terminologie kann im Rahmen eines einzelnen, überschaubaren Projekts oder systematisch zur Erschließung eines bestimmten Themas, einer Technologie oder der Produktlinie eines Unternehmens eingesetzt werden. Gerade bei systematischer Terminologiearbeit sind die Anforderungen hoch, die Verfahren komplex und die Zeitspanne länger. Für eine systematische Terminologiearbeit müssen Referenztexte gesammelt und analysiert werden, um daraus nicht nur Begriffe und Benennungen zu extrahieren, sondern auch deren Definitionen und Verwendungskontexte zu ermitteln.

Genau aus diesem Grund möchten wir AntConc vorstellen, das eine sehr gute Arbeit leisten kann.

Was ist AntConc?

AntConc ist in erster Linie ein Textanalyseprogramm, das von Laurence Anthony, Professor für angewandte Linguistik an der Waseda-Universität in Japan, entwickelt wurde. Es ist kostenlos und kann unter Windows, Mac und Linux genutzt werden.

Viele der Funktionen von AntConc können für die Terminologieextraktion verwendet werden. AntConc hat eine lange Tradition in der Unterstützung von Redakteuren und Terminologen.

AntConc ist so etwas wie das Schweizer Taschenmesser der Korpusanalyse. Da der Entwickler seit 20 Jahren (seit 2003) an diesem Programm arbeitet, gibt es eine Vielzahl von Funktionen und Konfigurationsmöglichkeiten, die der Benutzer für seine individuellen Bedürfnisse nutzen kann. Im Wesentlichen hat AntConc die folgenden Eigenschaften:

  • Großer Funktionsumfang: AntConc bietet einen umfassenden Satz von Funktionen zur Textanalyse und Terminologieextraktion, die insbesondere zu einem besseren Verständnis des Wortgebrauchs in bestimmten Kontexten beitragen.
  • Korpusaufbau: Mit AntConc kann der Benutzer umfangreiche Korpora aus verschiedenen Dokumenten (u. a. TXT-, XML-, HTML- oder PDF-Dateien) aufbauen und bei Bedarf semantische Unterschiede zwischen einzelnen Texten sichtbar machen. Dies ist sehr hilfreich für den systematischen Aufbau einer Terminologie für ein Unternehmen oder einen Fachbereich.
  • Statistische Terminologieextraktion: AntConc kann Einzel- und Mehrworttermini mit Hilfe verschiedener statistischer Methoden extrahieren. So können Benutzer auch bei Ad-hoc-Terminologieprojekten (z. B. für die Übersetzung eines Dokuments) schnell die wichtigsten Termini extrahieren.
  • Exportmöglichkeiten: Die Ergebnisse der einzelnen Abfragen können als TXT-Dateien exportiert oder innerhalb von AntConc weiter analysiert werden.

Benutzeroberfläche

Die Benutzeroberfläche von AntConc ist in verschiedene Bereiche unterteilt, um die Navigation und Bedienung zu erleichtern. Der linke Bereich enthält den Korpusbereich. Dort werden die im Korpus enthaltenen Textdateien angezeigt. Der Hauptbereich dient zur Anzeige der Ergebnisse verschiedener Aktionen, die in AntConc durchgeführt werden können. Im unteren Bereich schließlich befinden sich die Werkzeuge für die Suchabfragen, die der Benutzer konfigurieren und durchführen kann.

Mit neun spezialisierten Registerkarten unterstützt AntConc eine breite Palette von Textanalysen und linguistischen Aufgaben. Diese reichen von der Erstellung von Konkordanzen (Concordance) und deren grafischer Darstellung (Concordance Plot) über die Volltextanzeige (File View) bis hin zur Analyse von Wortclustern (Clusters) und statistischen Wortkombinationen (Collocate). Darüber hinaus können Worthäufigkeitsanalysen (Word List und N-Gram) durchgeführt und Schlüsselwörter zwischen verschiedenen Textkorpora verglichen werden (Keyword List).

Hauptfunktionen von AntConc

In diesem ersten Artikel über AntConc möchten wir uns auf einige Funktionen konzentrieren, die eine sofortige Terminologieextraktion und die Erstellung von Begriffsdefinitionen unterstützen. In einem folgenden Blog-Artikel werden wir tiefer in die fortgeschrittenen Funktionen und Anwendungen von AntConc eintauchen.

Wortlisten, Wortgruppenlisten und Keywordlisten

Das wichtigste Feature für die Terminologieextraktion ist die Funktion zur Erstellung einer Wortliste mit Häufigkeitsangaben, die AntConc sehr schnell generiert. Diese Liste kann nach Häufigkeit oder alphabetisch sortiert werden und ist besonders nützlich für die Identifizierung von Fachbegriffen und spezifischer Terminologie. Der Benutzer kann eine so genannte Stoppwortliste hinterlegen, d.h. eine Liste von häufigen Wörtern wie Artikel, Adverbien usw., die bei der Terminologieextraktion ignoriert werden sollen.

Neben der reinen Extraktion von 1-Wort-Termini bietet die Registerkarte “N-Gramme” die Möglichkeit, Gruppen von N-Wörtern zu extrahieren, wie z. B. elektrische Komponenten. Die Konfiguration dieser Mehrwortgruppen geht sehr ins Detail und erlaubt u.a. die Suche mit Hilfe von regulären Ausdrücken.

Cluster- und Kollokationsanalyse

Reine Wortlisten sind nur die halbe Miete. Ohne Kontext sind manche Wörter nur schwer zu verstehen. Hier bieten die Registerkarten “Cluster” und “Collocates” weitere Einblicke in die Beziehungen zwischen Fachbegriffen. Während “Cluster” eine geordnete Liste von Wortsequenzen rund um einen technischen Suchbegriff erstellt, ermöglicht “Collocates” die Identifizierung von häufig vorkommenden Partnerwörtern zu einem bestimmten Suchbegriff. Beide Funktionen sind variabel konfigurierbar und erleichtern so die Analyse von komplexen Fachbegriffen.

Soll z. B. das Wort container ohne Kontext in einem bestimmten Dokument ins Englische übersetzt werden, steht dem Übersetzer zuerst eine breite Auswahl zur Verfügung: Container, Vessel, Tank, Bin, Jar, Canister, Cask, Drum, Box, Holder. Wenn er jedoch mit Hilfe der Kollokationsfunktion feststellt, dass container häufig mit Wörtern wie Einfüllöffnung, Kühlschmierstoff oder Abfüllmenge assoziiert wird, schränkt dies die Auswahl bereits ein: Tank, Container oder Canister passen hier besser.

Weitere Recherchen, etwa über die Art der Maschine oder den Standort des Behälters, können zusätzliche relevante Informationen liefern. Diese Methode führt in diesem konkreten Anwendungsfall (Fräsmaschinen) je nach Kontext zu der Übersetzung Tank oder gelegentlich auch Container.

Wozu dient die Konkordanz?

Eine Konkordanz liefert den Kontext von Wörtern in einem Text oder Korpus. Mit der Konkordanzfunktion von AntConc können Benutzer KWIC-Zeilen (Key Word in Context) erstellen, die Informationen über die Verwendung bestimmter Fachbegriffe oder sprachlicher Muster liefern. Die KWIC-Ansicht von AntConc liefert sehr schnell die Sätze, in denen das Suchwort verwendet wird. Das Suchwort steht in der Mitte und bildet somit die Achse der Anzeige. Benachbarte Wörter werden in verschiedenen Farben dargestellt, was eine schnelle Orientierung ermöglicht.

Dies ist besonders nützlich, um die Bedeutung und Verwendung von Fachbegriffen zu ermitteln. Der Benutzer kann sich zum Beispiel anzeigen lassen, in welchen Sätzen mehrdeutige Wörter oder schwer zu beschriftende Fachbegriffe vorkommen, um daraus Definitionen abzuleiten. Diese Informationen sind sehr nützlich für die Qualitätskontrolle und die Konsistenz der Terminologie in technischen Dokumenten. Eine kleine nette Funktion: Benutzer können eine oder mehrere Zeile im KWIC-Dialog kopieren und in Word einfügen, wobei die AntConc-Markierfarben beibehalten werden.

Dateiansicht und Wortsuche

Die Konkordanzfunktion (KWIC) ist bereits hilfreich, wenn der Benutzer die Sätze sehen möchte, in denen der gesuchte Begriff verwendet wird. Manchmal reicht das aber nicht aus, um eine Frage nach dem Inhalt oder der Verwendung eines Begriffs zu beantworten. Hier können die Dateiansicht und erweiterte Suchstrategien helfen. Die Funktion “File View” ermöglicht den Zugriff auf den vollständigen Text rund um einen Suchbegriff. Dies bietet einen umfassenden Einblick in das sprachliche Umfeld und ist besonders nützlich für die Analyse technischer Dokumente.

Neben der einfachen Wortsuche erlaubt AntConc erweiterte Suchoptionen, die nicht nur exakte Übereinstimmungen finden, sondern auch Wortvarianten berücksichtigen. So lassen sich zum Beispiel flektierte Wortformen oder Wörter mit gemeinsamem Wortstamm finden.

Hier ein Beispiel für eine Suche nach dem Wort “Sensor” und seinen flektierten Varianten:

  • Eingabe: Sensor*
  • Gefundene Wortformen: Sensor, Sensors, Sensore, Sensoren aber auch Sensorhalter, Sensorhalterung, etc.
AntConc
Ergebnislliste bei der Suche nach dem Wort “Sensor” und seinen flektierten Varianten. – Bildschirmfoto (vergrößern mit Rechtsklick, Grafik in neuem Tab öffnen)

Keywords in Context (KWIC)

In ähnlicher Weise gibt die Suche nach ensor alle Komposita mit Sensor sowie deren Schreibvarianten zurück: Durchfluss-Sensor und Durchflusssensor. Die Suche mit Wildcards kann mit regulären Ausdrücken weiter verfeinert werden. Zum Beispiel findet der Ausdruck ur Sensor, Sensors, Sensore, Sensoren und nicht die anderen Komposita mit Sensor.

Ergebnisse exportieren

Zur Weiterverarbeitung der Ergebnisse bietet AntConc einen Export als Textdatei an. Hierfür steht der Befehl File > Save Current Tab Results zur Verfügung. Der Dateiname enthält automatisch den Namen des aktiven Tabs, zum Beispiel ‘N-Gram_results.txt’. Eine weitere Möglichkeit, Wortlisten zu exportieren, besteht darin, die Liste im Ergebnisfenster Edit > Select All + Edit > Copy zu kopieren und über die Zwischenablage in eine Excel-Datei einzufügen.

AntConC im praktischen Einsatz

AntConc kann für die folgenden zwei Anwendungsfälle sehr effektiv eingesetzt werden:

  1. Ad-hoc-Projekt
  2. systematische Terminologiearbeit

Ad-hoc-Projekt

Bei einem Ad-hoc-Übersetzungsprojekt geht es in erster Linie darum, relativ schnell eine Liste von Wörtern und Wortgruppen zu erstellen, um auf Basis der Häufigkeitsdaten und der eigenen Erfahrung die wichtigsten Termini zu extrahieren. Dank der Abgleichsfunktion mit einer Stoppwortliste kann jede bereits aus früheren Projekten bekannte Terminologie in die Stoppwortliste aufgenommen werden, so dass nur wirklich neue unbekannte Terminkandidaten übrig bleiben.

Besonders schwierige oder mehrdeutige Begriffe kann der Nutzer mit Hilfe der Registerkarte KWIC recherchieren. Für Ad-hoc-Projekte ist diese abgespeckte Version der Terminologieextraktion also sinnvoller, da sie weniger Zeit in Anspruch nimmt und dennoch brauchbare Ergebnisse liefert.

Vorgehen bei systematischer Terminologieextraktion mit AntConc

Die systematische Terminologieextraktion ist der Anwendungsfall, bei dem AntConc all seine Fähigkeiten ausspielt. Die systematische Terminologieextraktion lässt sich in drei klar definierte Phasen unterteilen:

1. Korpusaufbau

In dieser Phase erstellen die Benutzer ein spezialisiertes, themenbezogenes Korpus in einer Sprache ihrer Wahl. Zum Beispiel könnten Redakteure oder Übersetzer ein Korpus zum Thema “Landtechnik – Mähmaschinen” erstellen. Die Texte für das Korpus sollten aus bewährten Quellen wie Firmenhandbüchern, Websites, Präsentationen oder Fachartikeln stammen. Es ist nicht ungewöhnlich, dass solche Korpora, die aus mehreren Dateien bestehen, eine Wortzahl im sechsstelligen Bereich haben.

2. Analyse

Nach der Erstellung des Korpus wird dieses mit AntConc ausgewertet. Hierfür stehen die bereits eingeführten Funktionen Wortliste (Word List), Kollokate, Konkordanzen und Cluster zur Verfügung. Die Ergebnisse dieser Analysen sollten gespeichert werden, damit sie in der nächsten Phase verwendet werden können. In der Regel sieht der Arbeitsablauf wie folgt aus:

  1. Erstellen der Wortliste und der N-Gramm-Liste
  2. Auswahl der gewünschten Termini aus den Termkandidaten (je nach Zielsetzung des Terminologieprojekts)

3. Terminologieeinträge zusammenstellen

In der dritten Phase werden die Terminologieeinträge ausgearbeitet. Zusätzlich zu den ausgewählten Termkandidaten werden weitere Informationen und Metadaten aufbereitet, wie z.B. Definitionen und zugehörige Begriffe. In wissensbasierten Terminologiedatenbanken wie LookUp kann der Benutzer auch Relationen zwischen Begriffen oder zwischen Begriffen und Benennungen auf der Basis von Kollokationen und Wortclustern modellieren.

Die Arbeitsreihenfolge ist hier wie folgt:

  1. Analyse von Kontext und Kollokationen
  2. Erarbeitung von Metadaten und Definitionen
  3. Relationen zwischen Begriffen und Benennungen modellieren.

Fortsetzung folgt

Sie haben hier einen ersten Einblick in die Möglichkeiten erhalten, die AntCon Ihnen für Ihre Terminologiearbeit bietet. In einem zweiten Artikel werden wir näher auf die Konfiguration und weitere Einsatzmöglichkeiten eingehen. Zögern Sie nicht, uns Ihre Fragen oder Kommentare zur Terminologiearbeit zu schicken. Bleiben Sie also dran für Teil 2.

Weiterführender Link

  • AntConc-Logo
    AntConc-Logo

    Anthony, L. (2023). AntConc (Version 4.2.2) [Computer Software]. Tokyo, Japan: Waseda University. AntConc kann über den folgenden Link heruntergeladen werden: www.laurenceanthony.net/software

Dr. François Massion

Leipziger Buchmesse 2024