Eine große systematische Innovation?

Zum Digitalen Wörterbuch der Deutschen Sprache

Von Chris KellermannRSS-Newsfeed neuer Artikel von Chris Kellermann

Für Germanisten bietet das Internet weniger als für manch andere Disziplin. Texte, deren Grundlage nicht immer klar ist, Datenbanken auf zweifelhafter Basis bestimmen das Feld. Für bestimmte Hilfsmittel aber hat sich die Lage wirklich verbessert, dazu zählen zum Beispiel Wörterbücher, die retrodigitalisiert wurden und im Netz zur Verfügung stehen und somit studentische und andere Geldbeutel schonen. Für die älteren mittelhochdeutschen Wörterbücher von Benecke, Müller und Zarncke sowie das Wörterbuch von Matthias Lexer dürfte das zu annähernd 100 Prozent gelten. Kaum jemand wird heute noch für das in der Studierendenschaft früher selbstverständliche Taschenwörterbuch von Lexer Geld ausgeben. Auch das neue mittelhochdeutsche Wörterbuch steht zum größten Teil schon online zur Verfügung. Das deutsche Wörterbuch der Brüder Grimm ist seit zehn Jahren frei im Netz verfügbar. Vor einiger Zeit ist auch das maßgebliche Wörterbuch für die Gegenwart, der Duden, im Internet angekommen, wo Artikel gratis abrufbar sind. Neben diesem Standardwerk findet man seit einiger Zeit im Netz das „Digitale Wörterbuch der deutschen Sprache“ (DWDS), ein Projekt der Berlin-Brandenburgischen Akademie der Wissenschaften, das es sich zur Aufgabe gemacht hat, das Angebot für Sprachinformationen vor allem, aber nicht nur für die Gegenwart in mehrfacher Hinsicht zu erweitern. Zum einen wird hier eines der beiden großen etymologischen Wörterbücher kostenlos angeboten, nämlich das Wörterbuch nach Pfeifer, während für das andere Standardwerk von Kluge, gedruckt oder als App, mindestens 40 Euro zu bezahlen sind. Zum anderen wird für das Gegenwartsdeutsche eine Vielzahl von Informationen geboten, die über das Angebot eines klassischen Wörterbuchs hinausgehen. Das heißt, dass es hier nicht den klassischen Wörterbucheintrag gibt, in dem alle Informationen gebündelt erscheinen, sondern dass verschiedene Ressourcen als digitales lexikalisches System verknüpft und mit intelligenten Werkzeugen informatisch aufbereitet werden. „Ziel des an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimateten Vorhabens ist die Schaffung eines „Digitalen Lexikalischen Systems“ – eines umfassenden, jedem Benutzer über das Internet zugänglichen Wortinformationssystems, das Auskunft über den deutschen Wortschatz in Vergangenheit und Gegenwart gibt“, heißt es auf der DWDS-Website.

Die Informationen erscheinen in voneinander getrennten, leider etwas kleinen und nicht genau skalierbaren „Panels“. Welche genau es sein sollen, kann der Nutzer nach seinen Interessen selbst entscheiden. Die Angebote sind in verschiedene Kategorien unterteilt: 1. Wörterbücher, 2. Korpora, 3. Statistiken. Man kann damit also unterschiedliche digitale Nachschlagewerke abrufen, sich zahlreiche Verwendungsbeispiele ansehen und Auswertungen zum Gebrauch von Wörtern einsehen, die in der analogen Ära nicht oder nur in vereinzelten Spezialuntersuchungen zu bekommen waren.

1. An digitalisierten Wörterbüchern stehen neben Pfeifer noch das Wörterbuch der deutschen Gegenwartssprache (WDG) sowie die Erstausgabe des Grimmschen Wörterbuchs zur Verfügung, das bisher nur über das Trierer Wörterbuchnetz (http://woerterbuchnetz.de/) abrufbar war. Die Neubearbeitung des Deutschen Wörterbuchs, die demnächst abgeschlossen werden soll, fehlt hier wie dort noch. Für Angaben zu Sinnrelationen wie Hypo- und Hyperonomie ist außerdem der Open Thesaurus als externe Ressource verlinkt. Im „DWDS-Wörterbuch“ (was allerdings ein Pleonasmus ist) werden alle WDG-Artikel in überarbeiteter Form präsentiert, das heißt die Artikel sind oft mit zusätzlichen grammatischen Angaben versehen. Außerdem gibt es hier wie bei Duden online auch die Möglichkeit, sich Wörter vorsprechen zu lassen. Neue Artikel sollen im Rahmen dieses DWDS-Wörterbuchs in den nächsten Jahren erstellt werden. Laut Webseite gibt es bereits 2000 neue sogenannte Vollartikel und 2500 Kurzartikel, die lediglich Angaben zur Form sowie halbautomatisch, d.h. durch statistische Verfahren und manuelle Prüfung ausgewählte Beispiele enthalten. Insgesamt kommt man so, wie die Verantwortlichen auf der Startseite schreiben, auf 410.000 geprüfte Wörterbucheinträge.

2. Wichtigstes Korpus ist das Kernkorpus des DWDS, das so genannte Kernkorpus 20. Es enthält 100 Millionen Belege für das gesamte 20. Jahrhundert, nach zeitlicher Streuung und verschiedenen Textsorten gleichmäßig verteilt. Für die Zeit vor dem 20. Jahrhundert wird derzeit ein Korpus aufgebaut. Für die Nutzung des Korpus ist eine Anmeldung dringend zu empfehlen, weil die Zahl der angezeigten Treffer aus rechtlichen Gründen sonst sehr viel niedriger ist. Neben dem DWDS-Korpus gibt es hauptsächlich Zeitungstexte, die aus den letzten 20 Jahren stammen, lediglich von der „Zeit“ sind alle Texte seit 1946 enthalten. Außerdem sind einige Spezialkorpora abfragbar, darunter ein Korpus jüdischer Periodika mit 26 Millionen Textwörtern und ein Korpus Gesprochene Sprache mit 2,5 Millionen Wörtern. Alle Korpora zusammen genommen, kommt das DWDS auf stattliche 1,8 Milliarden Korpusbelege.

3. An statistischen Auswertungen stehen zur Verfügung:

- das „DWDS-Wortprofil“, das laut Website einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes liefert, also zum Beispiel herausfiltert, dass schöne und Bescherung häufig zusammen auftreten. Hier kann man dankenswerter Weise zwischen der heute dominierenden Wolkenansicht und einer Tabellenansicht wechseln, die genaue Trefferzahlen bietet.

- Die Wortverlaufskurve, die anzeigt, wann welches Wort in welchen Textarten im 20. Jahrhundert wie häufig vorkommt,

- Korpusfrequenzen, d.h. Informationen darüber, wie häufig ein Wort in den verschiedenen Korpora auftaucht.

Mit dieser Ansammlung von Ressourcen und Informationen übertrifft das DWDS sowohl das Wortschatz-Portal der Uni Leipzig, das ausschließlich Zeitungstexte der jüngeren Vergangenheit, eher allgemeine Bedeutungsangaben und statistische Angaben zur Vorkommenshäufigkeit in den erfassten Texten bietet, als auch die Angebote von Duden online, wo keine vergleichbaren Korpora und Statistiken genutzt werden können.

Mit diesen Ausgangswerten ist allerdings nur etwas über die Quantität des Angebots gesagt und noch nichts über die Qualität. Hier können nur praktische Anwendungsbeispiele zeigen, welchen Nutzen das DWDS für Sprachinteressierte hat. Da die Korpora bis jetzt nur Belege für das 20. und 21. Jahrhundert beinhalten, ist es natürlich sinnvoll, solche Wörter abzufragen, die in diesem Zeitraum entweder aufgekommen oder ausgestorben sind, wobei die Auswahl am Ende immer subjektiv ist. Um diesen subjektiven Faktor zu minimieren, habe ich eine Reihe von Wörtern angesehen, die auf der Website selbst für die Suche vorgeschlagen werden.

Der „Hagestolz“ ist so ein vom DWDS selbst auf der Startseite vorgeschlagenes Beispiel, das sehr schön zeigt, wie elektronische Ressourcen Einschätzungen zur Verbreitung von Wörtern modifizieren können. „Hagestolz“ war nämlich vor rund 10 Jahren in einem Lexikon der aussterbenden Wörter verzeichnet (Bodo Mrozek: Lexikon der bedrohten Wörter. Reinbek: Rowohlt 2005) und gilt allgemein als veraltet und wurde zuerst durch „Junggeselle“, jetzt eher durch geschlechtsneutrales „Single“ ersetzt. Aber die DWDS-Korpora zeigen, dass das Wort eben doch noch häufiger verwendet wird. Allein in der „Zeit“ finden sich 14 Verwendungsbeispiele seit dem Jahr 2000. Im DWDS-Kernkorpus 20 stammen allerdings 29 der angezeigten 34 Beispiele aus der ersten Hälfte des 20. Jahrhunderts, das Wort wird also zumindest seltener verwendet als früher. Warum kein Wortverlauf angezeigt wird, bleibt allerdings rätselhaft. Noch verwirrender ist, dass es abweichende Angaben zur Wortbildung im WDG/DWDS gegenüber dem Pfeifer gibt: Schreiben WDG und DWDS, dass es sich um eine Zusammensetzung von „Hag“ und „Stolz“ handelt, ist beim im nebenstehenden Panel angezeigten Pfeifer zu lesen, dass es gerade nicht „Stolz“ ist, worauf der zweite Wortbestandteil beruht, sondern die indogermanische Wurzelform *stel- ‚stellen’. Erst später, so Pfeifer, ist das Wort volksetymologisch an Stolz angeglichen worden. Offensichtlich verbreitet das DWDS hier also unkommentiert Volksetymologien. Bei Duden online gibt es hingegen, in den Eintrag integriert, die richtige Herkunftsangabe. Ein vergleichbares Problem offenbart sich beim vorgeschlagenen „Windhund“, das im WDG/DWDS als Zusammensetzung von „Wind“ und „Hund“ dargestellt wird, während Pfeifer das Wort als verdeutlichende Zusammensetzung beschreibt, meint doch althochdeutsch „wint“ ‚Hund für die Jagd’ und geht höchstwahrscheinlich auf die Bezeichnung für die slawischen Wenden zurück. Auch die „Armbrust“, über deren Verballhornung im Deutschen sich schon Nietzsche ausließ („Jenseits von Gut und Böse“, Abschnitt 192), wird allen Ernstes als Zusammensetzung von „Arm“ und „Brust“ bezeichnet, gleichzeitig ist zur Herkunft zu lesen, dass das Wort aus dem Lateinischen stammt. Der Artikel ist gegenüber der DDR-Version verändert, man versteht nur nicht den Grund: Im WDG stand die richtige Herkunftsangabe und das lateinische arcuballista.

Auch das nächste Beispiel „kaltstellen“ wird vom DWDS selbst vorgeschlagen. Es ist gegenüber dem WDG-Artikel um eine wohl jüngere Bedeutung erweitert: kannte das alte DDR-Wörterbuch nur die Bedeutung ,jemanden einflusslos machen, jemandes Einfluss schwächen’ (mit einschlägigen Beispielen), so hat man für das DWDS-Wörterbuch davor noch eine Bedeutung gesetzt, die als ‚etwas an einen kälteren Ort bringen’ definiert wird. Nun könnte man mit dieser Definition freilich auch Rosen an den Nordpol bringen; eine Einschränkung auf das, was meist gemeint sein dürfte, also Hinweise auf die Art der verbrachten Objekte (Getränke oder Lebensmittel), den Zweck der Verbringung (längere Haltbarkeit oder Verbesserung des Geschmacks) und eine Einschränkung der Auswahlmöglichkeiten beim Ort (in der Regel der Kühlschrank oder Balkon / Terrasse) hätten der Definition gutgetan. So löblich es außerdem ist, diese neue Bedeutung hinzuzufügen, so gern hätte man als Benutzer gewusst, seit wann sie vorkommt. Angaben dazu findet man nicht, und man muss sich mühsam durch die Belege arbeiten, um darauf zu kommen, dass der erste Beleg im Korpus von 1932 stammt – was immerhin einen Hinweis darauf gibt, dass auch das alte Wörterbuch die Bedeutung eigentlich schon hätte verzeichnen können.

Die neuen Kurzartikel helfen Benutzern, die auf semantische Erklärungen angewiesen sind, kaum – jedenfalls die, die ich gefunden habe. Beispiel DWDS-Vorschlag „Schnittstelle“; hier werden fünf verschiedene Beispiele gebracht:
1. „Die Zentrale der Bundesbank in Frankfurt ist die einzige deutsche Schnittstelle mit der Europäischen Zentralbank“ (FAZ, 6.11.2001).
2. „Was der digitalen Musik der Zukunft noch fehlt, ist eine Schnittstelle zum menschlichen Körper“ (FAZ, 9.9.2000).
3. „Man hegt keine Vorurteile gegenüber anderen Bereichen und bemüht sich an Schnittstellen darum, den anderen die Arbeit nicht unnötig zu erschweren“ (Keller, Hedwig: Das geheime Wissen der Personalchefs, 1998).
4. „Auf den Schnittstellen sitzen Rosetten oder Palmettblüten“ (Lexikon der Kunst, 1989).
5. „An der Schnittstelle beider Werte liest man dann den zufallskorrigierten Rohwert ab, den man natürlich für alle Felder aufgrund der Rohwertformel vorher ausgerechnet haben muß“ (Lienert, Gustav A.: Testaufbau und Textanalyse, 1961).

Im „Wortprofil“ stehen zum Stichwort als Attribute „analoge, definierte, drahtlose, einheitliche, genormte, grafische, interaktive, kompatible, normierte, parallele, sensible, serielle, standardisierte, universellen“ [sic]. Vieles davon kommt einem vertraut und sozusagen „richtig“ vor. Nichts davon findet man aber in den ausgewählten Beispielen. Vor allem ein typischer Beleg aus der IT fehlt. Sprachlernern, für die solche Artikel wohl in erster Linie gemacht werden, dürfte sich kaum erschließen, worin das gemeinsame Moment der Belege liegt, denn warum jeweils von „Schnittstelle“ gesprochen wird, geht daraus nicht hervor. Der früheste Beleg, den man im DWDS-Kernkorpus finden kann, wäre hier deutlicher gewesen: „Es waren zwei niedliche, kleine Hundepfötchen, nicht etwa nur die Krallen, sondern die Pfötchen, glatt abgeschnitten und an den Schnittstellen mit Hirschsehne sehr sorgfältig zusammengenäht“ (Karl May, Winnetou, 1910).

Immerhin, könnte man sagen, ist mit der Schnittstelle die Verbindung zum digitalen Zeitalter signalisiert. Verstörend wirkt dagegen, wenn im Jahr 2013 das Stichwort „Drucker“ definiert wird als ,Berufsbezeichnung: jemand, der die Tätigkeit des Druckens ausübt’. Im „Wortprofil“ werden Verbindungen zum Beispiel mit „angeschlossenen“ und „tragbaren“ hervorgehoben, und natürlich gibt es auch in den Korpusbelegen mehr als die Berufsbezeichnung. Wieder scheint es so zu sein, dass die verschiedenen Ressourcen nicht aufeinander abgestimmt sind, hier hat man vermutlich zunächst den alten WDG-Artikel übernommen, aber die Angaben nicht aktualisiert.

Warum bestimmte neue Wörter verzeichnet werden und andere nicht, wird zwar in den Erläuterungen ausgeführt, aber dem Sprachgefühl widersprechen sie in manchem Fall. So gibt es keinen Artikel für den „Warmduscher“ und auch keine Belege im DWDS-Korpus. Neu hinzugekommen ist dafür der „Warmwasserbereiter“, für den es einen Beleg im DWDS-Korpus gibt und sieben in der „Zeit“, und damit deutlich weniger als beim Warmduscher (28).

Ganz unheimlich wird es, wenn in neu gestaltete Einträge des alten WDG falsche Angaben eingebaut werden, d.h. die Korpora etwas anderes sagen als der Artikel. Beispiel „Lattenrost“: hier wird im neuen Eintrag ergänzt, dass das Wort nur im Singular vorkommt, im Zeit-Korpus finden sich aber schon auf den ersten Blick mehrere Belege für den Plural, und auch im DWDS-Korpus sind nach Anmeldungen von den 28 angezeigten Belegen 13 Pluralformen zu finden, also fast die Hälfte. Wie sind solche Fehler zu erklären?

Und schließlich: Das Problem, dass man bei der Suche Treffer bekommt, die gar nicht zum Stichwort gehören, kennt man zur Genüge von Google und Co. Leider bietet auch das DWDS, das nach eigenen Angaben viel Zeit mit der Korpuserstellung und -aufbereitung zugebracht hat, viele solche Fehler, und für manche Stichwörter findet man praktisch überhaupt nichts. Wenn man nach „tunen“ sucht, stellt man zum einen überrascht fest, dass es trotz der beinahe 150000 Textbeispiele in den angeführten Korpora auf der Webseite des DWDS offenbar keinen Eintrag für dieses Wort gibt, vielleicht kommt er noch, und zum anderen, dass die Belege falsche Zuordnung zeigen. Nachdem ich ermittelte, dass die ersten 1000 Treffer alle ohne Ausnahme zu „tun“ gehören, habe ich aufgegeben. In keinem einzigen der angebotenen Panels bekommt man nützliche Informationen zu „tunen“.

Übrigens: Das Wort „Panel“ selbst, das auf der DWDS-Website für die Darstellung der verschiedenen Ressourcen verwendet wird, ist weder im DWDS-Wörterbuch noch im Pfeifer verzeichnet. Angeboten werden für das Wort knapp 300 Textbeispiele, etliche davon erstaunlicherweise in englischer Sprache, im Wortprofil werden acht signifikante Verbindungen erwähnt: „sozioökonomischen, Daten, hochrangiges, Instituts, sogenannten, genannten, Ergebnissen, Mitglieder“. So richtig schlau wird man daraus nicht. Duden online hilft auch hier und liefert Erklärungen zur Bedeutung und zur Herkunft.

Das DWDS bietet nützliche Werkzeuge und Hilfsmittel. Größter Gewinn ist das Etymologische Wörterbuch von Pfeifer, das hier digital angeboten wird. Für viele Stichwörter findet man sehr viele Belege und Zusatzinformationen etwa zu Wortumgebungen und Häufigkeitsverteilungen. Hier liegen eindeutig die Stärken des Projekts. Allerdings lässt die wissenschaftliche Qualität der Informationen noch an vielen Stellen zu wünschen übrig. Das alte DDR-WDG stammt spürbar aus einer anderen Zeit, und die überarbeiteten oder neuen Einträge sind oft fehlerhaft. Vor allem wirken die Informationen in den verschiedenen Panels manchmal oberflächlich, meistens sogar überhaupt nicht aufeinander abgestimmt. Für sprachkompetente Nutzer ist manches zu erschließen, aber viele, nicht nur Sprachlerner, werden bei den zahlreichen sich widersprechenden Informationen ratlos bleiben. Und: man mag sich bei einem profitorientierten Milliardenkonzern wie Google nicht wundern, wenn viele Angaben falsch sind, weil es dort nicht um wissenschaftliche Genauigkeit geht und die Suchalgorithmen demzufolge ohne händische Kontrolle über die Texte laufen. Beim DWDS hingegen, das immerhin an einer Akademie der Wissenschaften beheimatet ist, verstören die Fehler doch sehr. Die Schwachstellen sind benannt – und es wird eine Aufgabe für die Zukunft sein, hier nachzubessern. Dann kann das DWDS die große systematische Innovation sein, die es sein will.

Ein Beitrag aus der Mittelalter-Redaktion der Universität Marburg