Häufig gestellte Fragen – Daten

Alle Wörter werden so aufgenommen und dargestellt, wie sie in den genutzten Dokumenten gefunden werden. Entsprechend können orthographische Fehler (z.B. "nähmlich" statt "nämlich"), Wörter in alter Rechtschreibung (z.B. "Schiffahrt") oder Mundart (z.B. "ick" oder "isch") in den Korpora enthalten sein. Die Nutzung zufällig ausgewählter Webseiten als Textquelle kann auch zur Aufnahme von Sätzen und Wörtern führen, die als rassistisch, sexistisch oder anderweitig problematisch angesehen werden können.

Darüber hinaus können auch Fehler durch unsere Verarbeitungskette entstehen (zum Beispiel Wortfragmente wie "tung", durch falsche Tokenisierung). In der Regel ist die Häufigkeit eines fehlerhaften Wortes jedoch viel geringer als die Häufigkeit der korrekten Version, außerdem sind bei Wörtern in alter Rechtschreibung häufig Verweise auf die aktuell gültige Schreibung angebracht. Falls Ihnen systematische Fehler auffallen, freuen wir uns natürlich über einen Hinweis.

Grundlage für die vom Projekt Wortschatz Leipzig bereitgestellten Korpora sind typischerweise frei verfügbare Dokumente aus dem Internet, die weitgehend automatisch durch unsere Prozesskette aufbereitet werden. Falls in den zugrundeliegenden Dokumenten bestimmte Wortformen nicht gefunden werden können, sind sie entsprechend auch in unseren Korpora nicht auffindbar. Eine manuelle Selektion der Dokumente findet (abgesehen von domänenspezifischen Korpora) nicht statt.

Informationen zu den Downloadmöglichkeiten finden Sie hier oder beim Repositorium der Sächsischen Akademie der Wissenschaften.

Das Projekt nutzt für die Erstellung von Korpora zum großen Teil Material aus dem Internet. Da dieses dem Urheberrecht unterliegt, wird jeder Text in seine Sätze zerlegt und durch zufällige Sortierung die ursprüngliche Textstruktur zerstört. Vollständige Dokumente liegen uns nach dieser Vorverarbeitung nicht mehr vor und können entsprechend nicht zur Verfügung gestellt werden.

Wir verwenden Korpusnamen die die wichtigsten Informationen zum verwendeten Textmaterial enthalten. Alle Korpusnamen haben dabei die folgende Struktur
SPRACHE_GENRE_ZEITANGABE
Dabei enthält
  • Sprache – Informationen zur verwendeten Sprache basierend auf ISO 639-3, optional erweitert mit Herkunftsangabe nach ISO 3166
  • Genre – Information zur Art des verwendeten Quellenmaterials, typische Werte hierfür sind "web", "wikipedia", "news" (Zeitungsmaterial, meist auf der Basis von RSS-Feeds) oder "newscrawl" (Zeitungsmaterial, gecrawlt von Webseiten)
  • Zeitangabe – Informationen zum Zeitraum in dem das Quellenmaterial erhoben wurde
Beispiele für Korpusnamen sind entsprechend
  • deu_news_2023 – Zeitungstexte in deutscher Sprache von 2023
  • deu-at_news_2023 – Zeitungstext in deutscher Sprache aus Österreich von 2023
  • deu-at_web_2021-2024 – Webtext in deutscher Sprache aus Österreich von 2021 bis 2024
  • deu_wikipedia_2024 – Wikipedia-Texte in deutscher Sprache von 2024

Das Projekt nutzt eine komplexe Prozesskette zur Korpus- bzw. Wörterbucherstellung die kontinuierlich weiterentwickelt wird.
Sie umfasst die folgenden Schritte

  • Webcrawling
  • Entfernen von HTML-Markup (bzw. XML-Markup für Wikipedia)
  • Dokumentenbasierte Sprachidentifikation
  • Satzsegmentierung
  • Entfernung von Satzdubletten
  • Musterbasierte Satzsäuberung
  • Satzbasierte Sprachidentifikation
  • Korpuserstellung
    • Tokenisierung und Wortindizierung
    • Worthäufigkeitsberechnung
    • Berechnung von Wortkookkurrenzen
  • Optionale Nachbearbeitung (abhängig von der Verfügbarkeit der entsprechenden Werkzeuge)
    • POS-Tagging (Zuordnung von Wörtern zu ihrer Wortart)
    • Lemmatisierung
    • Erkennung und Entfernung von Quasi-Dubletten von Sätzen
    • Wortähnlichkeit basierend auf Kookkurrenzen
    • Wortähnlichkeit basierend auf Stringähnlichkeit (Levenshtein)