Häufig gestellte Fragen – Wörterbuchportal

Das Wörterbuchportal unterstützt die Suche und Anzeige von Vollformen, d.h. flektierten Wortformen. Dies können sowohl einfache Wortformen (z.B. "Auto" oder "Autos"), aber auch Mehrworteinheiten (z.B. "Sri Lanka" oder "Los Angeles") sein. Die Menge indexierter Mehrworteinheiten ist dabei uneinheitlich und variiert insbesondere in Abhängigkeit von Sprache und Genre. Bei der Suche wird Groß-/Kleinschreibung grundsätzlich berücksichtigt. Gibt es zusätzlich Treffer in anderer Schreibweise, werden diese in einer Zeile "Siehe auch:" unter dem Stichwort angezeigt.

Das Wörterbuchportal bietet darüber hinaus auch die Suche nach Wortformen durch Suchmuster. Dabei werden die Sonderzeichen '*' (alternativ '%') für eine beliebige Anzahl von Buchstaben und "?" (alternativ '_') für einzelne Buchstaben unterstützt. Zum Beispiel könnte die Anfrage "Au??ba*" in einem deutschsprachigen Korpus Wortformen wie "Autobahn", "Autobatterie" oder "Auerbachs Keller" finden. Die für ein Muster gefundenen Treffer werden auf einer gesonderten Seite, absteigend nach ihrer Häufigkeit im ausgewählten Korpus sortiert, aufgelistet.

Auf der Hauptseite bzw. in der Infobox oben rechts finden Sie Informationen zum ausgewählten Korpus. Dazu gehören die Anzahl der Sätze, die Anzahl der verschiedenen Wörter (Types) sowie die Anzahl der laufenden Wörter (Tokens).

Wir stellen diverse Informationen zur Häufigkeit eines Wortes zur Verfügung. Dazu gehören
  • Anzahl – Zahl der Vorkommen des Wortes im gesamten Korpus. Dies ist eine absolute Anzahl und damit linear abhängig von der Korpusgröße.
  • Rang – Position des Wortes in der häufigkeitssortierten Liste aller Wörter. In vielen deutschsprachigen Korpora ist "der" das häufigste Wort und hat damit jeweils den Rang 1. Das zweithäufigste Wort (meist "die") erhält Rang 2 usw. Der Rang eines Wortes wächst nicht mit der Korpusgröße, kann sich aber (speziell im Falle seltenerer Wörter) für verschiedene Korpora erheblich unterscheiden.
  • Häufigkeitsklasse – Hier werden Wörter vergleichbarer Häufigkeit zu größeren Klassen zusammengefasst, so dass sich die Häufigkeitsklasse eines Wortes in verschiedenen Korpora kaum noch unterscheidet. Dazu wird die Häufigkeit des häufigsten Wortes durch die Häufigkeit des betrachteten Wortes dividiert und der Logarithmus zur Basis zwei dieses Quotienten auf die nächste ganze Zahl gerundet – Das häufigste Wort hat immer die Häufigkeitsklasse 0; ein Wort aus der Häufigkeitsklasse eins ist näherungsweise halb so häufig. Allgemein ist ein Wort der Häufigkeitsklasse n+1 etwa halb so häufig wie ein Wort aus der Häufigkeitsklassen. In großen Korpora haben extrem seltene Wörter Häufigkeitsklassen größer als 20.

Für jedes Wort stellen wir Informationen zu dessen Häufigkeit im Korpus bereit. Details zu diesen Angaben finden Sie weiter oben.

Die weiteren Angaben sind für viele, aber nicht für alle Wörter vorhanden. Sie wurden typischerweise mit automatischen Verfahren erzeugt und können deshalb in seltenen Fällen auch Fehler enthalten. Zu diesen Angaben gehören
  • Unsere Transliterationen sind buchstabengetreue Übertragungen aus einem anderen Schriftsystem in das lateinische Alphabet. Für die chinesische Sprache nutzen wir zum Beispiel die Pinyin-Umschrift, für einige weitere Sprachen (wie Griechisch, Russisch oder Georgisch) den Python Transliterator von Artur Barseghyan.
  • Für gebeugte Formen wird die Grundform ("Seminare" -> "Seminar") angegeben, umgekehrt werden zu einer Grundform die gebeugten Formen in der Reihenfolge Ihrer Häufigkeit angezeigt (z.B. für "Seminar" - "Seminaren, Seminars, Seminare").
  • Für Wörter in Grundform wird die Wortart angegeben, bei Substantiven zusätzlich das grammatische Geschlecht.
  • Für zusammmengesetzte Wörter werden die jeweiligen Teile dargestellt (z.B. für "Bauamtsleiter" - "Bau+Amt+Leiter").
  • Die Silbentrennung beschreibt die möglichen Trennstellen bei der Worttrennung am Zeilenende (z.B. "Bau|amts|lei|ter").
  • Die Beschreibungen sind aus dem jeweiligen Wikipedia-Eintrag extrahiert worden.
  • Die Synonyme sind eine Liste bedeutungsgleicher oder bedeutungsähnlicher Wörter.

In dem seit 1934 im Verlag De Gruyter erscheinenden Wörterbuch Dornseiff: Der deutsche Wortschatz nach Sachgruppen werden die Wörter nach inhaltlichen Kriterien in mittlerweile 22 Hauptgruppen und 970 Sachgruppen eingeteilt. Diese sind weiter in semantische Gruppen unterteilt.

Die achte und neunte Auflage des Wörterbuchs (erschienen in den Jahren 2004 und 2020) wurde mit Hilfe der Daten des Projekts Deutscher Wortschatz erstellt und wir erhielten vom Verlag De Gruyter die freundliche Erlaubnis, zu jedem Wort die Dornseiff-Sachgruppe sowie die dazugehörige vollständige semantische Gruppe anzuzeigen.

Für Wörter zu denen Übersetzungen in andere Sprachen vorliegen, wird für jede Übersetzung ein Verweis auf dessen entsprechende Webseite des Wörterbuchportals angeboten. Für Sprachen zu denen mehrere Wörterbücher im Portal vorhanden sind, wird typischerweise auf das jeweils größte (alternativ: das neueste) Korpus verlinkt. Je Sprache werden die Übersetzungen nach ihrer Häufigkeit im Zielkorpus absteigend sortiert aufgeführt. Zur besseren Übersichtlichkeit wird die jeweilige Häufigkeitsklasse angezeigt (zur Bedeutung der Häufigkeitsklassen siehe weiter oben).

Da aus rechtlichen Gründen in unserer Vorverarbeitung häufig die ursprünglichen Dokumentenstrukturen zerstört werden, liegen alle Beispielsätze in einer zufälligen Reihenfolge vor. Um besonders "typische" Beispiele zu bevorzugen, nutzen wir zur Sortierung der Sätze für die meisten Korpora eine angepasste Version des GDEX-Algorithmus ("Good Dictionary Examples in a Corpus"). Bevorzugt angezeigt werden kürzere Sätze einfacher grammatischer Struktur, möglichst ohne allzu seltene Wörter und mit wenig Zahlen und anderen Sonderzeichen. Weitere Details zum Algorithmus finden Sie hier.

Kookkurrenzen eines Wortes sind diejenigen Wörter, die statistisch auffällig mit dem Ausgangswort gemeinsam auftreten; und zwar als unmittelbarer linker Nachbar, als unmittelbarer rechter Nachbar bzw. gemeinsam im Satz. Die Relevanz des gemeinsamen Auftretens wird über ein Signifikanzmaß bestimmt und Kookkurrenzen entsprechend ihrer Signifikanzstärke geordnet. Im Projekt Wortschatz Leipzig wird als Signifikanzmaß das Log-Likelihood-Ratio verwendet und Paare mit geringer Signifikanz entfernt.

Die "Kookkurrenz-ähnlichen Formen" oder "Formen mit ähnlichem Satzkontext" enthalten Wörter, die typischerweise in einem ähnlichen Satzumfeld wie das Eingabewort vorkommen. Die distributionelle Semantik geht davon aus, dass solche Wörter eine ähnliche Bedeutung haben.

Zur Berechnung werden die Kookkurrenzen verschiedener Wörter verglichen. Eine große Übereinstimmung der Kookkurrenzmengen (berechnet mit dem Dice-Koeffizienten) spricht für eine häufige Austauschbarkeit der Wörter und damit für eine ähnliche Bedeutung. Die Anordnung erfolgt nach der Größe des berechneten Dice-Koeffizienten und setzt eine Mindestanzahl gemeinsamer Kookkurrenzen voraus.

Der Kookkurrenzgraph ist eine Visualisierung der Satzkookkurrenzen. Dabei wird für die signifikantesten Kookkurrenten des jeweiligen Eingabewortes untersucht ob zwischen ihnen paarweise ebenfalls eine signifikante Kookkurrenzrelation besteht. Ist dies der Fall werden beide Kookkurrenten in den Graph aufgenommen und sowohl untereinander als auch mit dem Eingabewort durch eine Kante verbunden. Die Signifikanz der konkreten Kookkurrenz wird dabei durch die Stärke der jeweiligen Kante dargestellt.

Unser Portal Wörter des Tages sammelt täglich Nachrichtentexte aus dem Internet und wertet diese aus. Wörter die an einem Tag ungewöhnlich häufig oder in untypischen Satzkontexten vorkommen, werden als "Wort des Tages" ausgewählt und zusammen mit aktuellen Beispielsätzen und Quelleninformationen dargestellt. Die Box im Wörterbuchportal zeigt die relative Häufigkeit des Wortes für jeden Tag der letzten Wochen bzw. Monate. Ein Klick auf einen blauen Balken führt zur entsprechenden Informationsseite bei den Wörter des Tages.