Das Wörterbuchportal unterstützt die Suche und Anzeige von Vollformen, d.h. flektierten Wortformen. Dies können sowohl einfache Wortformen (z.B. "Auto" oder "Autos"), aber auch Mehrworteinheiten (z.B. "Sri Lanka" oder "Los Angeles") sein. Die Menge indexierter Mehrworteinheiten ist dabei uneinheitlich und variiert insbesondere in Abhängigkeit von Sprache und Genre. Bei der Suche wird Groß-/Kleinschreibung grundsätzlich berücksichtigt. Gibt es zusätzlich Treffer in anderer Schreibweise, werden diese in einer Zeile "Siehe auch:" unter dem Stichwort angezeigt.
Das Wörterbuchportal bietet darüber hinaus auch die Suche nach Wortformen durch Suchmuster. Dabei werden die Sonderzeichen '*' (alternativ '%') für eine beliebige Anzahl von Buchstaben und "?" (alternativ '_') für einzelne Buchstaben unterstützt. Zum Beispiel könnte die Anfrage "Au??ba*" in einem deutschsprachigen Korpus Wortformen wie "Autobahn", "Autobatterie" oder "Auerbachs Keller" finden. Die für ein Muster gefundenen Treffer werden auf einer gesonderten Seite, absteigend nach ihrer Häufigkeit im ausgewählten Korpus sortiert, aufgelistet.
Auf der Hauptseite bzw. in der Infobox oben rechts finden Sie Informationen zum ausgewählten Korpus. Dazu gehören die Anzahl der Sätze, die Anzahl der verschiedenen Wörter (Types) sowie die Anzahl der laufenden Wörter (Tokens).
Für jedes Wort stellen wir Informationen zu dessen Häufigkeit im Korpus bereit. Details zu diesen Angaben finden Sie weiter oben.
Die weiteren Angaben sind für viele, aber nicht für alle Wörter vorhanden. Sie wurden typischerweise mit automatischen Verfahren erzeugt und können deshalb in seltenen Fällen auch Fehler enthalten. Zu diesen Angaben gehörenIn dem seit 1934 im Verlag De Gruyter erscheinenden Wörterbuch Dornseiff: Der deutsche Wortschatz nach Sachgruppen werden die Wörter nach inhaltlichen Kriterien in mittlerweile 22 Hauptgruppen und 970 Sachgruppen eingeteilt. Diese sind weiter in semantische Gruppen unterteilt.
Die achte und neunte Auflage des Wörterbuchs (erschienen in den Jahren 2004 und 2020) wurde mit Hilfe der Daten des Projekts Deutscher Wortschatz erstellt und wir erhielten vom Verlag De Gruyter die freundliche Erlaubnis, zu jedem Wort die Dornseiff-Sachgruppe sowie die dazugehörige vollständige semantische Gruppe anzuzeigen.
Für Wörter zu denen Übersetzungen in andere Sprachen vorliegen, wird für jede Übersetzung ein Verweis auf dessen entsprechende Webseite des Wörterbuchportals angeboten. Für Sprachen zu denen mehrere Wörterbücher im Portal vorhanden sind, wird typischerweise auf das jeweils größte (alternativ: das neueste) Korpus verlinkt. Je Sprache werden die Übersetzungen nach ihrer Häufigkeit im Zielkorpus absteigend sortiert aufgeführt. Zur besseren Übersichtlichkeit wird die jeweilige Häufigkeitsklasse angezeigt (zur Bedeutung der Häufigkeitsklassen siehe weiter oben).
Da aus rechtlichen Gründen in unserer Vorverarbeitung häufig die ursprünglichen Dokumentenstrukturen zerstört werden, liegen alle Beispielsätze in einer zufälligen Reihenfolge vor. Um besonders "typische" Beispiele zu bevorzugen, nutzen wir zur Sortierung der Sätze für die meisten Korpora eine angepasste Version des GDEX-Algorithmus ("Good Dictionary Examples in a Corpus"). Bevorzugt angezeigt werden kürzere Sätze einfacher grammatischer Struktur, möglichst ohne allzu seltene Wörter und mit wenig Zahlen und anderen Sonderzeichen. Weitere Details zum Algorithmus finden Sie hier.
Kookkurrenzen eines Wortes sind diejenigen Wörter, die statistisch auffällig mit dem Ausgangswort gemeinsam auftreten; und zwar als unmittelbarer linker Nachbar, als unmittelbarer rechter Nachbar bzw. gemeinsam im Satz. Die Relevanz des gemeinsamen Auftretens wird über ein Signifikanzmaß bestimmt und Kookkurrenzen entsprechend ihrer Signifikanzstärke geordnet. Im Projekt Wortschatz Leipzig wird als Signifikanzmaß das Log-Likelihood-Ratio verwendet und Paare mit geringer Signifikanz entfernt.
Die "Kookkurrenz-ähnlichen Formen" oder "Formen mit ähnlichem Satzkontext" enthalten Wörter, die typischerweise in einem ähnlichen Satzumfeld wie das Eingabewort vorkommen. Die distributionelle Semantik geht davon aus, dass solche Wörter eine ähnliche Bedeutung haben.
Zur Berechnung werden die Kookkurrenzen verschiedener Wörter verglichen. Eine große Übereinstimmung der Kookkurrenzmengen (berechnet mit dem Dice-Koeffizienten) spricht für eine häufige Austauschbarkeit der Wörter und damit für eine ähnliche Bedeutung. Die Anordnung erfolgt nach der Größe des berechneten Dice-Koeffizienten und setzt eine Mindestanzahl gemeinsamer Kookkurrenzen voraus.
Der Kookkurrenzgraph ist eine Visualisierung der Satzkookkurrenzen. Dabei wird für die signifikantesten Kookkurrenten des jeweiligen Eingabewortes untersucht ob zwischen ihnen paarweise ebenfalls eine signifikante Kookkurrenzrelation besteht. Ist dies der Fall werden beide Kookkurrenten in den Graph aufgenommen und sowohl untereinander als auch mit dem Eingabewort durch eine Kante verbunden. Die Signifikanz der konkreten Kookkurrenz wird dabei durch die Stärke der jeweiligen Kante dargestellt.
Unser Portal Wörter des Tages sammelt täglich Nachrichtentexte aus dem Internet und wertet diese aus. Wörter die an einem Tag ungewöhnlich häufig oder in untypischen Satzkontexten vorkommen, werden als "Wort des Tages" ausgewählt und zusammen mit aktuellen Beispielsätzen und Quelleninformationen dargestellt. Die Box im Wörterbuchportal zeigt die relative Häufigkeit des Wortes für jeden Tag der letzten Wochen bzw. Monate. Ein Klick auf einen blauen Balken führt zur entsprechenden Informationsseite bei den Wörter des Tages.