Alle Wörter werden so aufgenommen und dargestellt, wie sie in den genutzten Dokumenten gefunden werden. Entsprechend können orthographische Fehler (z.B. "nähmlich" statt "nämlich"), Wörter in alter Rechtschreibung (z.B. "Schiffahrt") oder Mundart (z.B. "ick" oder "isch") in den Korpora enthalten sein. Die Nutzung zufällig ausgewählter Webseiten als Textquelle kann auch zur Aufnahme von Sätzen und Wörtern führen, die als rassistisch, sexistisch oder anderweitig problematisch angesehen werden können.
Darüber hinaus können auch Fehler durch unsere Verarbeitungskette entstehen (zum Beispiel Wortfragmente wie "tung", durch falsche Tokenisierung). In der Regel ist die Häufigkeit eines fehlerhaften Wortes jedoch viel geringer als die Häufigkeit der korrekten Version, außerdem sind bei Wörtern in alter Rechtschreibung häufig Verweise auf die aktuell gültige Schreibung angebracht. Falls Ihnen systematische Fehler auffallen, freuen wir uns natürlich über einen Hinweis.
Grundlage für die vom Projekt Wortschatz Leipzig bereitgestellten Korpora sind typischerweise frei verfügbare Dokumente aus dem Internet, die weitgehend automatisch durch unsere Prozesskette aufbereitet werden. Falls in den zugrundeliegenden Dokumenten bestimmte Wortformen nicht gefunden werden können, sind sie entsprechend auch in unseren Korpora nicht auffindbar. Eine manuelle Selektion der Dokumente findet (abgesehen von domänenspezifischen Korpora) nicht statt.
Informationen zu den Downloadmöglichkeiten finden Sie hier oder beim Repositorium der Sächsischen Akademie der Wissenschaften.
Das Projekt nutzt für die Erstellung von Korpora zum großen Teil Material aus dem Internet. Da dieses dem Urheberrecht unterliegt, wird jeder Text in seine Sätze zerlegt und durch zufällige Sortierung die ursprüngliche Textstruktur zerstört. Vollständige Dokumente liegen uns nach dieser Vorverarbeitung nicht mehr vor und können entsprechend nicht zur Verfügung gestellt werden.
Das Projekt nutzt eine komplexe Prozesskette zur Korpus- bzw. Wörterbucherstellung die kontinuierlich weiterentwickelt wird.
Sie umfasst die folgenden Schritte