Umfangreiche Textdaten sind das Fundament für alle modernen Verfahren im Bereich der Automatischen Sprachverarbeitung (Natural Language Processing). Sie sind Grundlage für eine Vielzahl von Anwendungen zur Informationsextraktion, für die Erstellung leistungsfähiger Sprachmodelle (Large Language Models, LLMs) und weiterer Verfahren des maschinellen Lernens. Die Leistungsfähigkeit und Qualität von Wort- und Dokumenten-Embeddings oder moderner Transformer-Modelle ergibt sich unmittelbar aus dem Umfang und der Qualität der verwendeten Textressourcen.
Das Projekt Wortschatz Leipzig bzw. Deutscher Wortschatz stellt seit Mitte der 1990er Jahre Informationen zur deutschen Sprache online zur Verfügung. Dazu werden regelmäßig – meist jährlich – frei verfügbare Dokumente im Internet gesammelt und aufbereitet. Das Ergebnis sind Korpora und korpusbasierte Wörterbucher, in denen zu jedem Wort eine Seite mit statistischen Angaben, Beispielsätzen und Links zu verwandten Wörtern aufgerufen werden kann. Durch die Menge der zugrundeliegenden Daten von mehreren hundert Millionen Sätzen finden sich Angaben für fast alle Wörter. Das Angebot zählt damit zu den umfangreichsten Informationssystemen zur deutschen Sprache.
Seit den Anfängen des Projekts hat sich dessen inhaltlicher Fokus kontinuierlich weiterentwickelt. Neue Textquellen wurden erschlossen, neue Verfahren entwickelt, neue Anwendungen bereitgestellt. Insbesondere wurden die entstandenen Werkzeuge und vorhandene Expertise im Bereich Aufbereitung und Analyse von Textdaten auf zunehmen weitere Sprachen ausgeweitet. Im Zentrum der Arbeit steht die offene Bereitstellung der gewonnenen Daten; allein die Webservices des Projektes haben mittlerweile Anfragen im Milliardenbereich beantwortet.
Durch den großen Umfang der zugrunde liegenden Datenbestände von bis zu mehreren hundert Millionen Sätzen je Sprache finden sich in den Ressourcen des Projektes statistische Angaben für fast alle Wörter und linguistischen Phänomene. Das Angebot wird auch weiterhin um zusätzliche Sprachen erweitert. Mittlerweile liegen Daten für mehr als 250 Sprachen vor, die größtenteils online über Webportale, über Webservices oder im Rahmen der Leipzig Corpora Collection (LCC) als Normgrößenkorpora per Download abgefragt werden können.
Zur Wahrung der Urheberrechte und des Datenschutzes werden die Textkorpora meist als randomisierte Satzlisten zur Verfügung gestellt, aus denen die ursprünglichen Volltexte nicht rekonstruierbar sind. Alle enthaltenen Belege sind über Metadaten dem jeweiligen Originalartikel zuordenbar.