Seminar Ähnlichkeitssuche in großen Datenmengen

In diesem Seminar wollen wir uns mit der Ähnlichkeitssuche in (hochdimensionalen) Daten beschäftigen. Anwendung findet dies beispielsweise in aktuellen Sprachmodellen wie dem Retrieval-Enhanced Transformer (RETRO) von Google/Deepmind, Implementierungen dazu finden sich bspw. in der FAISS Bibliothek von Facebook/Meta. Eine aktuell wichtige Technik ist der Index Scalable Nearest Neighbors (SCANN) von Google, Amazon hat eine eigene Technik mit dem Namen FINGER veröffentlicht.

Die Integration von Ähnlichkeitssuche in moderne Sprachmodelle (bspw. ChatGPT) verspricht dabei gleich zwei deren größten Probleme zu lösen: die aktuellen Sprachmodelle halluzinieren, weil sie kein "Verständnis" für Fakten haben, sondern rein oberflächlich Text auf syntaktische Plausibilität optimieren, und sie sind so aufwändig zu trainieren, dass man sie nur langsam an aktuelle Informationen anpassen kann. Daher kann ChatGPT beispielsweise keine Fragen zum Ukraine-Krieg beantworten. Mit Hilfe von Retrieval-Ansätzen, bei denen das Sprachmodell zur Eingabe relevante Quellen als zusätzliche Eingabe bekommt, hofft man hier sowohl eine bessere Faktentreue zu erreichen (weil Suchergebnisse von dem Modell als Fakten verarbeitet werden können), als auch dem Modell ohne Neutraining Zugriff auf aktuelle Informationen geben zu können.

Lernziele

Sie beschäftigen sich in diesem Seminar intensiv mit aktueller wissenschaftlicher Literatur, arbeiten sich selbständig in den Kontext ein, und präsentieren ihre Rechercheergebnisse in einem Vortrag sowie in einer schriftlichen Ausarbeitung.

Literatur und Themen

Unter anderem:

Struktur und Ablauf

Die Anmeldung zum Seminar ist beendet!

Termine werden noch festgesetzt!

Das Seminar besteht aus folgenden Komponenten:

Bewertung

Die Abschluss-Note setzt sich wie folgt zusammen:

Hilfsmittel

Primär sollen Sie mit den (wissenschaftlichen) Originalquellen arbeiten.

Die Verwendung von ChatGPT ist nicht ausgeschlossen, aber keinesfalls empfohlen, da ChatGPT in der Regel nicht die nötige Faktentreue erreicht. Es gibt zahlreiche Beispiele wo GPT Fakten ebenso wie Quellen "halluziniert". Daher müssten Sie die erzeugten Passagen genau prüfen, und Fehler ebenso wie Plagiate in diesen Passagen selbst verantworten! Durch ChatGPT erzeugte Passagen sind in der Regel als Internetquelle kenntlich zu machen und mit Datum/Version und Prompt zu kennzeichnen. Wenn Sie urheberrechtlich geschütztes Material in ChatGPT eingeben begehen Sie ggf. eine Urheberrechtsverletzung, und es entbindet Sie nicht davon, die Originalquellen zu zitieren, da es sich immer noch um Paraphrasen handeln kann. Der Einsatz von KI nur zur Rechtschreib- und Grammatikkorrektur stell hingegen kein Problem dar.

Für genauere Fragen zum Einsatz von ChatGPT finden Sie Einschätzungen in einem aktuellen Gutachten zum Einsatz von KI in der Hochschulbildung.