Language Documentation Reference Corpus: ZAS Berlin veröffentlicht DoReCo-Online-Datenbank

DoReCo-Start — Nach mehr als drei Jahren Arbeit konnte Projektleiter Frank Seifart (Mitte) die DoReCo-Datenbank für die Nutzung freigeben. - Bild: DoReCo

Am 29. Juli 2022 trafen sich Sprachwissenschaftler aus aller Welt am Leibniz-Zentrum Allgemeine Sprachwissenschaft in Berlin, um die Online-Veröffentlichung der DoReCo-Datenbank zu feiern. Die Datenbank bietet Zugang zu Audioaufnahmen von mehr als 50 Sprachen, zusammen mit Transkriptionen, Übersetzungen und detaillierten linguistischen Analysen.

Die Online-Datenbank des Projekts DoReCo (Language Documentation Reference Corpus) bietet ein unvergleichliches Panorama der Vielfalt der Sprachen der Welt durch mündliche Erzählungen von Nordsibirien bis Südafrika und von Europa bis Australien. DoReCo enthält eine Auswahl der besten Ergebnisse akribischer Arbeit von Wissenschaftlern, die jahrelang kleine und bedrohte Sprachen analysiert haben – in Zusammenarbeit mit deren Sprechern.

Mit der Online-Datenbank besteht nun ein Zugang zu diesen Aufnahmen und Analysen – für Wissenschaftler aus der ganzen Welt. Der Blick durch dieses Kaleidoskop von Sprachen soll helfen, die Geheimnisse der sprachlichen Vielfalt zu entschlüsseln, aber auch ihre gemeinsamen Merkmale hervorzuheben, die trotz der Unterschiedlichkeiten bestehen.

PD Dr. habil. Frank Seifart, wissenschaftlicher Mitarbeiter am ZAS und Leiter des DoReCo-Projekts, kommentiert: „Ich freue mich sehr darüber, dass wir die Vielfalt der menschlichen Sprachen nun nicht mehr nur anhand von abstrakten Aussagen aus Grammatikbüchern untersuchen können, sondern durch die reiche Ausdruckskraft spontan produzierter Sprache.“

DoReCo hat ein Netz von fast hundert Wissenschaftlern aufgebaut, die sprachliche Primärdaten gesammelt und analysiert haben. Die Verarbeitung dieser Daten wurde durch ein deutsch-französisches Projekt ermöglicht, das vom ZAS in Berlin und dem Laboratoire Dynamique du Langage (DDL) in Lyon geleitet und gemeinsam von der deutschen DFG (Deutsche Forschungsgemeinschaft) und der französischen ANR (Agence Nationale de la Recherche) finanziert wurde.

Drei Jahre lang hat das Projektteam die vielfältigen Transkriptionen, Übersetzungen und linguistischen Analysen erweitert und vereinheitlicht, um vergleichende Analysen zu ermöglichen.

Die DoReCo-Daten entsprechen auch den ethischen und wissenschaftlichen FAIR-Prinzipien (Findability, Accessibility, Interoperability, Re-usability) und sind unter Creative Commons-Lizenzen zugänglich.

Mit 50 Sprachen größte und repräsentativste Stichprobe lebender Sprachen

Die DoReCo-Sammlung von 50 Sprachen ist die bisher größte und repräsentativste Stichprobe der 7.000 noch gesprochenen menschlichen Sprachen bezüglich audiovisuell aufgezeichneter und von Experten analysierten Texten. Im Vergleich zu den bisher zur Verfügung stehenden Ressourcen stellt dies einen erheblichen Durchbruch dar, denn Daten zu den meisten DoReCo-Sprachen waren für die Forschung bisher – wenn überhaupt – nur mühsam auffindbar.

Die Veröffentlichung mündlicher Aufnahmen in Verbindung mit umfangreichen linguistischen Analysen eröffnet neue Wege für die Erforschung der einzigartigen menschlichen Fähigkeit, erstaunlich vielfältige Sprachsysteme zu entwickeln, zu erhalten und zu verwenden.

Sprechproben von Australien über Südamerika bis Sibirien

Für die DoReCo-Sprachen Dalabon (in Australien gesprochen), Resígaro (Südamerika) und Kamas (Sibirien) ist die Zahl der Sprecher jedoch bereits dramatisch zurückgegangen, so dass es heute nur noch eine Handvoll, nur noch einen oder gar keine Sprecher mehr gibt.

Dies führt unweigerlich dazu, dass sich die Fenster, die sie zur kulturellen und sprachlichen Vielfalt der Menschheit geöffnet haben, bald schließen, wodurch sich die Bedeutsamkeit des von DoReCo bereitgestellten dokumentarischen Materials noch erhöht.

Die DoReCo-Datenbank wurde im Rahmen des DoReCo-Projekts von 2019 bis 2022 erstellt. Das Projekt wurde durch ein ANR-DFG-Stipendium finanziert, das an Frank Seifart, Manfred Krifka (März bis Juli 2019) und François Pellegrino (August 2019 bis August 2022) vergeben wurde. Das Projekt war am Leibniz-Zentrum Allgemeine Sprachwissenschaft in Berlin und am Laboratoire Dynamique Du Langage (UMR5596, CNRS & Université Lyon 2) in Lyon angesiedelt und kooperierte mit dem Bayerischen Archiv für Sprachsignale, München.

Ziel des DoReCo-Projekts war die Erforschung lokaler Variationen der Sprechgeschwindigkeit auf der Grundlage der bisher breitesten Stichprobe der Sprachen der Welt.

Weiterführender Link

doreco.info

Dr. Fabienne Salfner (ZAS)