Häufig gestellte Fragen (FAQ) zu unseren Daten

Alle Wörter werden so aufgenommen und dargestellt, wie sie in den genutzten Dokumenten gefunden werden. Entsprechend können orthographische Fehler (z.B. "nähmlich" statt "nämlich"), Wörter in alter Rechtschreibung (z.B. "Schiffahrt") oder Mundart (z.B. "ick" oder "isch") in den Korpora enthalten sein. Die Nutzung zufällig ausgewählter Webseiten als Textquelle kann auch zur Aufnahme von Sätzen und Wörtern führen, die als rassistisch, sexistisch oder anderweitig problematisch angesehen werden können.

Darüber hinaus können auch Fehler durch unsere Verarbeitungskette entstehen (zum Beispiel Wortfragmente wie "tung", durch falsche Tokenisierung). In der Regel ist die Häufigkeit eines fehlerhaften Wortes jedoch viel geringer als die Häufigkeit der korrekten Version, außerdem sind bei Wörtern in alter Rechtschreibung häufig Verweise auf die aktuell gültige Schreibung angebracht. Falls Ihnen systematische Fehler auffallen, freuen wir uns natürlich über einen Hinweis.

Grundlage für die vom Projekt Wortschatz Leipzig bereitgestellten Korpora sind typischerweise frei verfügbare Dokumente aus dem Internet, die weitgehend automatisch durch unsere Prozesskette aufbereitet werden. Falls in den zugrundeliegenden Dokumenten bestimmte Wortformen nicht gefunden werden können, sind sie entsprechend auch in unseren Korpora nicht auffindbar. Eine manuelle Selektion der Dokumente findet (abgesehen von domänenspezifischen Korpora) nicht statt.

Informationen zu den Downloadmöglichkeiten finden Sie hier oder beim Repositorium der Sächsischen Akademie der Wissenschaften.

Das Projekt nutzt für die Erstellung von Korpora zum großen Teil Material aus dem Internet. Da dieses dem Urheberrecht unterliegt, wird jeder Text in seine Sätze zerlegt und durch zufällige Sortierung die ursprüngliche Textstruktur zerstört. Vollständige Dokumente liegen uns nach dieser Vorverarbeitung nicht mehr vor und können entsprechend nicht zur Verfügung gestellt werden.

Wir verwenden Korpusnamen die die wichtigsten Informationen zum verwendeten Textmaterial enthalten. Alle Korpusnamen haben dabei die folgende Struktur
SPRACHE_GENRE_ZEITANGABE
Dabei enthält

Sprache – Informationen zur verwendeten Sprache basierend auf ISO 639-3, optional erweitert mit Herkunftsangabe nach ISO 3166
Genre – Information zur Art des verwendeten Quellenmaterials, typische Werte hierfür sind "web", "wikipedia", "news" (Zeitungsmaterial, meist auf der Basis von RSS-Feeds) oder "newscrawl" (Zeitungsmaterial, gecrawlt von Webseiten)
Zeitangabe – Informationen zum Zeitraum in dem das Quellenmaterial erhoben wurde

Beispiele für Korpusnamen sind entsprechend

deu_news_2023 – Zeitungstexte in deutscher Sprache von 2023
deu-at_news_2023 – Zeitungstext in deutscher Sprache aus Österreich von 2023
deu-at_web_2021-2024 – Webtext in deutscher Sprache aus Österreich von 2021 bis 2024
deu_wikipedia_2024 – Wikipedia-Texte in deutscher Sprache von 2024

Das Projekt nutzt eine komplexe Prozesskette zur Korpus- bzw. Wörterbucherstellung die kontinuierlich weiterentwickelt wird.
Sie umfasst die folgenden Schritte

Webcrawling
Entfernen von HTML-Markup (bzw. XML-Markup für Wikipedia)
Dokumentenbasierte Sprachidentifikation
Satzsegmentierung
Entfernung von Satzdubletten
Musterbasierte Satzsäuberung
Satzbasierte Sprachidentifikation
Korpuserstellung
- Tokenisierung und Wortindizierung
- Worthäufigkeitsberechnung
- Berechnung von Wortkookkurrenzen
Optionale Nachbearbeitung (abhängig von der Verfügbarkeit der entsprechenden Werkzeuge)
- POS-Tagging (Zuordnung von Wörtern zu ihrer Wortart)
- Lemmatisierung
- Erkennung und Entfernung von Quasi-Dubletten von Sätzen
- Wortähnlichkeit basierend auf Kookkurrenzen
- Wortähnlichkeit basierend auf Stringähnlichkeit (Levenshtein)

Häufig gestellte Fragen – Daten

Ich habe ein fehlerhaftes Wort/einen fehlerhaften Satz gefunden!

Warum fehlt das Wort X?

Wo kann ich mir die Daten herunterladen?

Wo sind die vollständigen Texte?

Was bedeuten die kryptischen Korpusnamen?

Wie werden die Texte aufbereitet?