Natürlichsprachliche Systeme
Die Vorlesung Natürlichsprachliche Systeme (Natural Language Processing) bietet einen breiten Überblick über Forschung für Systeme zur Verarbeitung textueller menschlicher Sprache (keine Audioerkennung, keine Handschrifterkennung). Beginnend bei den frühen Grundlagen im Bereich der Suche in Textdaten, über Ansätze zur Clusteranalyse und zur Themenmodellierung kommen wir zu dem Bereich der neuronalen Netze und Embeddings, und den Ideen der Transformer und GPT- sowie ChatGPT-Modelle.
Diese Vorlesung ist eine Algorithmen-orientierte Informatik-Vorlesung, sie ist nicht als interdisziplinäres Modul konzipiert. Der Fokus liegt auf den Algorithmen, der zugrundeliegenden Theorie, den Datenstrukturen, aber auch auf der Implementierung und Optimierung dieser Algorithmen. Wir werden wenig über Anwendungen und Werkzeuge sprechen, da sich diese rapide weiterentwickeln und solches Anwendungswissen schnell veraltet ist. Statt dessen zielt diese Vorlesung darauf ab, dauerhafteres Wissen zu vermitteln und längerfristig nützliche Fähigkeiten zu lehren, um sich selbst neue Methoden anzueignen und diese weiter zu entwickeln. Gute Programmierfähigkeiten sind eine Voraussetzung. Leider brechen viele Teilnehmer ab oder scheitern in der Prüfung, die nicht die nötigen Vorkenntnisse für dieses Modul mitbringen.
Inhalte
Vorlesungsinhalte sind unter anderem:
- Tokenisierung und Datenvorverarbeitung
- Bag-of-Words und das Vektorraummodell
- Volltextsuche
- Clusteranalyse von Text
- Themenodelle
- Matrixfaktorisierung
- Sequenzielle Modelle: Markov-Modelle, Maximum Entropy und Conditional Random Fields
- Neuronale Netze zur Modellierung von Text
Voraussetzungen
- gute Programmierkenntnisse in Python
- gutes Wissen und Verständnis von Datenstrukturen und Algorithmen
- Neugierde und Motivation zur selbständigen Arbeit