Wortschatz Leipzig > Wissensrohstoff Text

Wissensrohstoff Text – Eine Einführung in das Text Mining

Inhalt des Buches

Der größte Teil des Weltwissens ist in digital verfügbaren Texten beschrieben. Diese Texte stellen einen bedeutsamen Wissensrohstoff dar, doch wie kann dieses Wissen extrahiert werden? Lernen Sie in dieser aktualisierten und erweiterten Neuauflage des ersten deutschen Lehrbuches zu diesem Thema, wie digitaler Text mit Hilfe von Text Mining aufbereitet, verarbeitet und in Anwendungen genutzt werden kann.

Die Autoren

Chris Biemann
Professor Dr. Chris Biemann ist wissenschaftlicher Leiter des Hub of Computing and Data Science, und leitet den Arbeitsbereich Sprachtechnologie im Fachbereich Informatik, beides an der Universität Hamburg.
Gerhard Heyer
Professor Dr. Gerhard Heyer leitete den Lehrstuhl für Automatische Sprachverarbeitung im Institut für Informatik an der Universität Leipzig.
Uwe Quasthoff
Professor Dr. Uwe Quasthoff leitete das Projekt Deutscher Wortschatz am Lehrstuhl für Automatische Sprachverarbeitung an der Universität Leipzig.

Glossar

Das Glossar zum Buch steht hier zur Verfügung: Download (Deutsch)

Daten

Hier finden Sie verschiedene Ressourcen die im Buch verwendet bzw. referenziert werden. Dazu gehören die verwendeten Textdaten sowie die ASV Online Toolbox in der Sie Verfahren, die im Buch erklärt werden, direkt in Ihrem Browser ausprobieren können.

Die im Buch verwendeten Korpora können hier in verschiedenen Größen (in Anzahl Sätze) heruntergeladen werden. Das Format der Downloads wird hier erläutert.

Deutsches Newskorpus (Deutschland) 2019, unterschiedliche Größen (in Anzahl Sätzen)
Deutsches Webkorpus (Deutschland) 2019, unterschiedliche Größen (in Anzahl Sätzen)
Weitere Downloadmöglichkeiten

Tools

Einige der im Buch dargestellten Verfahren lassen sich direkt über unsere Toolbox testen. Wir empfehlen die Nutzung der Online Toolbox; die ältere ASV Toolbox steht allerdings auch weiterhin zum Download zur Verfügung.

ASV Online Toolbox

Die Online Toolbox ist eine modulare Kollektion verschiedener Werkzeuge zur Auswertung geschriebener Sprache und erlaubt das Testen vieler dargestellter Verfahren direkt im Browser.


Zur Toolbox…
ASV Toolbox

Die ASV Toolbox ist eine Sammlung verschiedener Werkzeuge zur Auswertung geschriebener Sprache. Sie entstand an der Abteilung für Automatische Sprachverarbeitung der Universität Leipzig und wird nicht mehr weiterentwickelt. Sie kann bei der Language Technology Group, Universität Hamburg heruntergeladen werden.


Zum Download der ASV Toolbox… Darstellung Pfeil der nach rechts oben zeigt