Terminologie-Extraktion mit Word und Excel: Do-it-yourself-Lösung ohne teure Spezial-Software

Terminologie-Extraktion mit Word und Excel
Bild: DOG GmbH

Kaum jemand wird in Frage stellen, dass Terminologiearbeit einen wichtigen Beitrag zur Qualität der Kommunikation im technischen Bereich leistet. Es ist jedoch nicht immer einfach, die notwendigen Ressourcen und Werkzeuge zu finden, um diese Aufgabe effektiv zu bewältigen. Daher suchen viele nach einer einfachen, pragmatischen Lösung.

Die hier vorgestellte Methode mag nicht ideal sein, aber sie liefert schnelle und brauchbare Ergebnisse. Sie basiert auf gängigen Microsoft-Office-Anwendungen, was sie besonders zugänglich macht.

Extraktion von Termkandidaten aus Texten

Oftmals möchten wir für eine bestimmte Arbeit die wichtigsten Termini aus einem Text extrahieren. Dies kann beim Erlernen neuen Wissens oder beim Schreiben eines Artikels nützlich sein, und insbesondere auch bei Übersetzungsprojekten.

Eine vollautomatische Terminologieextraktion bleibt für Redakteure oder Übersetzer ein utopisches Ziel. Texte sind sehr komplexe Systeme und bergen zahlreiche linguistische Herausforderungen. Diese umfassen die Erkennung der Grundformen von Termini und unregelmäßigen Pluralformen („Förderband“/“Förderbänder“), die Zerlegung von zusammengesetzten Wörtern („Mess- und Regeltechnik“), die Identifizierung fester Wortgruppen („speicherprogrammierbare Steuerung“) oder die Erkennung von Synonymen („Abstandring“/„Distanzring“).

Daher besteht für uns die Herausforderung darin, eine Lösung zu finden, die ohne großen Aufwand und ohne spezielle Tools umsetzbar ist. Hier bietet sich die Kombination von Microsoft Word und Excel an.

Erste Schritte: Textvorbereitung in Word

Unser erstes Ziel besteht darin, aus einem vorliegenden Textdokument im Word-Format eine Liste von Wörtern zu extrahieren, die als unsere Termkandidaten gelten. Dafür benötigen wir zunächst den reinen Textinhalt, ohne Formatierung, Tabellen oder Grafiken.

Um dies zu erreichen, speichern Sie Ihr Word-Dokument als Textdatei (*.txt) ab. Damit wird der reine Text, frei von jeglicher Formatierung, beibehalten. Schließen Sie das Dokument und öffnen Sie es erneut, um den formatfreien Text zu sehen.

Jetzt wollen wir eine reine Wortliste generieren. Dazu ersetzen wir alle Leerzeichen durch Absatzmarken. Hierfür nutzen wir die Suchen- und Ersetzen-Funktion von Word: Drücken Sie Strg+H, geben Sie im Feld Suchen nach ein Leerzeichen ein und im Feld Ersetzen durch „^p“ (ohne Anführungszeichen). Klicken Sie dann auf Alle ersetzen. Sie sehen dann alle Wörter untereinander.

Wortliste erstellen und bereinigen in Excel

Nachdem wir unsere Liste von Termkandidaten erstellt haben, kopieren wir sie in eine leere Excel-Tabelle. Verwenden Sie dazu Strg + A (um alles zu markieren) und dann Strg + C (um zu kopieren). Wechseln Sie zu Excel, klicken Sie auf die erste Zelle der Spalte A und drücken Sie Strg + V (um einzufügen).

Der nächste Schritt ist die Bereinigung und Sortierung unserer Liste. Um dies zu tun, markieren Sie die Spalte A, klicken Sie auf den Reiter Daten und wählen Sie die Option Von A bis Z sortieren. Um Duplikate zu entfernen, markieren Sie erneut die Spalte A, wählen Sie Daten > Duplikate entfernen und klicken Sie auf OK.

Stoppwörter aussortieren

Es gibt Wörter, die inhaltlich wenig aussagekräftig sind und daher aus unserer Liste entfernt werden sollten. Diese als „Stoppwörter“ bezeichneten Wörter umfassen häufig gebrauchte Wörter wie und, oder, während etc. Sie können Listen von Stoppwörtern online finden und diese in die Spalte C Ihrer Excel-Tabelle einfügen.

Um Stoppwörter aus Ihrer Wortliste zu entfernen, können Sie die Funktion VERGLEICH verwenden. Geben Sie in der ersten Zelle der Spalte B die Formel =VERGLEICH(A1;$C$1:$C$100;0) (wenn Ihre Stoppwörter sich zwischen der Zelle C1 und C100 befinden) ein und kopieren Sie diese in die gesamte Spalte B. Alle Einträge in Spalte A, die in Spalte C vorkommen, erhalten jetzt eine Ziffer. Alle anderen Einträge werden mit „#NV“ markiert.

Sie können sich das Leben leichter machen, indem Sie diesen Bereich benennen. Markieren Sie hierfür den Bereich, der die Stoppwörter enthält (z.B. $C$1:$C$100). Gehen Sie anschließend in den Reiter Formeln und wählen Sie die Option Namen definieren. Geben Sie dem Bereich einen Namen, z. B. „STOPPWOERTER“. Diesen Namen können Sie nun in Ihren Funktionen verwenden.

Um die Stoppwörter zu entfernen, sortieren Sie die Tabelle basierend auf Spalte B. Wählen Sie alle Zellen mit Zahlen und löschen Sie sie, indem Sie „Strg + –“ (Minus) drücken.

Terminologie-Extraktion mit Word und Excel
Bild: DOG GmbH

Wortvarianten reduzieren

Unser nächster Schritt besteht darin, Wortvarianten zu reduzieren. Dies ist besonders relevant für Sprachen wie Deutsch, die über zahlreiche Wortformen verfügen.

Geben Sie in der ersten Zelle der Spalte B die Formel =RECHTS(A1;2) ein, um die letzten beiden Buchstaben jedes Wortes zu erhalten. Kopieren Sie diese Formel in die gesamte Spalte B und sortieren Sie die Tabelle erneut, diesmal basierend auf Spalte B.

Löschen Sie erneut alle Duplikate in Spalte A und markieren Sie die verbleibenden Einträge, die Sie als relevant erachten. Fügen Sie ein Symbol, z.B. eine Raute (#), in Spalte C neben jedem Wort ein, das Sie behalten möchten.

Dynamische Erweiterung der Stoppwörter-Liste

Um den Extraktionsprozess effizienter zu gestalten, können Sie Ihre Stoppwortliste laufend mit Wortkandidaten erweitern, die nicht zur Terminologie hinzugefügt werden sollen. Außerdem können bereits bekannte Termini ebenfalls in diese Liste aufgenommen werden.

Mit jedem Update der Stoppwortliste wird das Extraktionswerkzeug präziser. Es verbleiben bei der nächsten Extraktion deutlich mehr „interessante“ Wörter, die noch nicht erfasst wurden.

Mehr-Wort-Termini extrahieren

Für bestimmte Sprachen wie Englisch oder Spanisch ist es oft notwendig, Wortgruppen von zwei oder drei Wörtern zu extrahieren. Sie können ähnlich vorgehen wie mit der Ein-Wort-Liste. Zur Umsetzung kopieren Sie die Wortliste aus der Word-Datei drei Mal in Excel und setzen sie in abgestuften Schritten, beginnend bei A3, B2 und C1, nebeneinander. Dies simuliert die Abfolge von drei aufeinanderfolgenden Wörtern im Originaltext.

Terminologie-Extraktion mit Word und Excel
Bild: DOG GmbH

Um die unerwünschten Terminologie-Kandidaten auszusortieren, können Sie ähnlich vorgehen wie bei der Ein-Wort-Liste, jedoch mit speziellen Stoppwörtern für den Anfang oder das Ende der Wortgruppe.

Zum Schluss: Terminologie verwalten

Wir hoffen, dass dieser Leitfaden Ihnen dabei hilft, Ihre Terminologiearbeit effizienter zu gestalten. Es ist wichtig zu beachten, dass dies eine grundlegende Methode ist und dass es viele weitere fortgeschrittene Tools und Methoden gibt, die in zukünftigen Artikeln vorgestellt werden.

Sobald Sie regelmäßig Terminologie extrahieren, können Sie sich fragen, wie Sie die extrahierten Termini am besten speichern. Für eine Weile können Sie die Terminologiedaten sicherlich sehr bequem in einer großen Excel-Tabelle sammeln, aber für den professionellen Einsatz empfehlen wir die Nutzung spezialisierter Tools wie LookUp, die Sie auf der unten genannten Website testen können.

Weiterführender Link

Mehr zum Thema

Dr. François Massion, D.O.G. Dokumentation ohne Grenzen GmbH

Leipziger Buchmesse 2024