Projektdarstellung – Berlin-Brandenburgische Akademie der Wissenschaften

Ziel und thematische Schwerpunkte des Projekts

Das durch den Wolfgang Paul-Preis der Alexander von Humboldt-Stiftung geförderte Projekt „Kollokationen im Wörterbuch“ unter Leitung der Preisträgerin Christiane Fellbaum konzentriert sich auf einen ausgewählten Bereich im weiten Spektrum der festen Wendungen, auf Verb-Nomen-Verbindungen idiomatischen Charakters, wie es z. B. eins hinter die Löffel bekommen oder etwas auf die hohe Kante legen sind. Die komplexe semantische und syntaktische Analyse einer möglichst großen Anzahl deutscher Verb-Nomen-Idiome sowie ihre lexikographische Erfassung sind die Hauptziele des Projekts. Die Untersuchung wird grundlegend gestützt durch moderne computerlexikographische Arbeitsmethoden.

Die empirische Basis der Analysen bildet das Corpus des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS), ein repräsentatives und linguistisch aufbereitetes elektronisches Corpus aus Texten des gesamten 20. Jahrhunderts, das an der BBAW unter Leitung von Wolfgang Klein und Alexander Geyken erstellt wurde und mit der digitalisierten Version des „Wörterbuchs der deutschen Gegenwartssprache“ (1961-1977) von R. Klappenbach/W. Steinitz verknüpft ist.

Beim Projekt „Kollokationen im Wörterbuch“ handelt es sich um Grundlagenforschung, von der u. a. Phraseologie, Lexikographie, Computerlinguistik, Theorie und Praxis des Übersetzens und Fremdsprachenunterricht profitieren werden.

Die im folgenden skizzierten Arbeitsschritte gewährleisten eine corpusbasierte komplexe Analyse von Verb-Nomen-Idiomen und die adäquate Darstellung der Analyseergebnisse in einer Idiomdatenbank unter Wahrung der Corpusgebundenheit mithilfe eines speziell entwickelten Belegverwaltungsprogramms.

Suchanfragendatenbank und Belegcorpora

Die Lexikographen und Linguisten des Projekts führen Corpusrecherchen auf der Basis einer Liste von Zielidiomen durch. Eine dafür eingerichtete und laufend aktualisierte Suchanfragendatenbank enthält zur Zeit über 4.000 Datensätze. Ein Datensatz umfasst alle Informationen über die für ein bestimmtes Idiom erfolgten Suchstrategien. Ziel ist es, eine passende „final query“ für ein Idiom zu erstellen. Mittels der „final queries“ werden durch Abfrage des Corpus einzelne Belegcorpora erstellt. Sie enthalten alle Treffer zum Zielidiom sowie die dazugehörigen bibliographischen Daten. Die Belegcorpora dienen als Basis zur Ermittlung der Eigenschaften jedes einzelnen Idiom und der Verifizierung der Analyseergebnisse. Für die Belegcorpora wurde eine Software entwickelt, die die lexikographische Bearbeitung der Belege unterstützt. Die Software ermöglicht die Sichtung, Sortierung und Bewertung auch großer Belegmengen nach diversen Kriterien und gestattet die Annotierung der Belege mithilfe einer frei definierbaren Labelsprache. Diese Informationen werden als Bestandteil des Belegcorpus' gespeichert und stehen für weitere Auswertungen zur Verfügung.

Idiomdatenbank

Die Ergebnisse der im Projekt geleisteten Analyse der lexikalischen, semantischen, syntaktischen und distributiven Eigenschaften der Idiome sowie ihrer evt. strukturellen und/oder semantischen Veränderungen werden in sogenannten Templates in einer Datenbank erfasst. Pro Idiom gibt es acht dieser „Datenblätter“. Die zugrunde liegende Datenstruktur ist ursächlich für die Möglichkeiten der automatischen und manuellen Auswertung verantwortlich.

Datenbankeinträge

Anfang November 2005 enthielt die Idiomdatenbank 597 vollständige Einträge mit insgesamt 4.776 Templates. Die Gesamtzahl der relevanten Belege für diese Einträge beträgt über 66.000, von denen wiederum über 25.000 gelabelt sind. Damit können die Belegcorpora als annotiertes Idiomcorpus angesehen werden und sind eine Ressource von beständig steigendem Wert auch für die maschinelle Sprachverarbeitung und die Lexikographie.
Datenauswertung

Ein Auswertewerkzeug, das den Zugriff auf die Daten unterstützt und spezielle linguistische Phänomene abfragbar macht, wurde programmiert.
Ressourcennutzung

Eine umfassende Dokumentation wurde parallel zur Bearbeitung entwickelt und verfeinert. Die Untersuchungsergebnisse werden frei über das Internet zur Verfügung gestellt werden. Auch die im Projekt entwickelten Arbeitswerkzeuge sind als Ressourcen für zukünftige linguistische Forschungen nutzbar.

Das Projekt hat eine Homepage (kollokationen.bbaw.de), auf der in deutscher und englischer Sprache u. a. eine Forschungsbibliographie, die Publikationen der Mitarbeiter und die Vortragsreihe des Projekts vorgestellt werden.

Forschungsbibliographie

Die gegenwärtig umfangreichste Sammlung zum Thema „Kollokationen und Idiome“ umfaßt ca. 4.000 Einträge und wird laufend aktualisiert. Ihre redaktionelle Betreuung stellt sicher, dass nur wissenschaftlich fundierte Veröffentlichungen aufgenommen werden. Die Bibliographie ist der Öffentlichkeit im Internet zugänglich.

Veröffentlichungen

Ein dem Projekt gewidmetes Sonderheft des International Journal of Lexicography mit Beiträgen der Projektmitarbeiter wird 2006 erscheinen (Hrsg. Christiane Fellbaum). Ebenfalls für 2006 ist ein projektbezogener Sammelband in der Reihe Corpus and Discourse (Continuum Press, Birmingham, UK) in Vorbereitung.

An herausragenden relevanten Publikationen im Berichtszeitraum sind folgende zu nennen:

Geyken, Alexander (2005): Das Wortinformationssystem des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS). In: BBAW, Circular Heft 32.

Geyken, Alexander/Hanneforth, Thomas (2005): TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer.

Fellbaum, Christiane/Geyken, Alexander (im Druck): Transforming a Corpus into a Lexical Resource for Idioms and Collocations. Revue Francaise de Linguistique Appliquee.

Fellbaum, Christiane/Stathi, Katerina (im Druck): Idiome in der Grammatik und im Kontext: Wer brüllt hier die Leviten?. In: Proost, K./Winkler, E. (Hrsg.): Von Intentionalität zur Bedeutung konventionalisierter Zeichen. Studien zur deutschen Sprache, Tübingen: Narr

Fellbaum, Christiane/Kramer, Undine/Neumann, Gerald (2005): Corpusbasierte lexikographische Erfassung und linguistische Analyse deutscher Idiome. In: Phraseology in Motion. Basel, 183-199.

Kramer, Undine/Neumann, Gerald/Stathi, Katerina/Fellbaum, Christiane (2005): „Kollokationen im Wörterbuch“ – Das Wolfgang Paul-Preis Projekt an der Berlin-Brandenburgischen Akademie der Wissenschaften. In: Zeitschrift für Germanistik, Heft 3, 636-645.

Kramer, Undine/Fritze, Christiane (2005): Neue Online-Bibliographie. Collocations and idioms: An International Bibliography. In: Zeitschrift für Germanistik, Heft 1, 240.

Stathi, Katerina (2005): Phraseological boundedness and semantic change in Greek.. Proceedings of the 7th International Conference on Greek Linguistics, University of York, 8-10 September 2005.

Eine vollständige Publikationsliste der Projektmitglieder findet sich auf der Homepage des Projektes.