Proseminar Ähnlichkeitssuche
In zahlreichen Datenanalyse-Algorithmen stoßen wir auf Suchprobleme, in denen wir die ähnlichsten Objekte benötigen. Typischerweise haben wir dabei Vektordaten vorliegen, oftmals in hoher Dimensionalität.
So versucht man beispielsweise mittels "Retrieval Augmented Generation" (RAG) die Faktentreue von großen Sprachmodellen (wie ChatGPT) zu verbessern und das Halluzinieren zu reduzieren, indem man die ähnlichsten Textfragmente zur Frage des Nutzers in einer großen Datenbank sucht, und diese zur Beantwortung der Frage verwendet.
Die effiziente Suche von ähnlichen Datensätzen ist jedoch ein schwieriges Problem, da mehrdimensionale Daten nicht einfach sortiert werden können, und klassische Suchbäume nur für eindimensionale Daten konzipiert sind. In diesem Proseminar geht es daher genau um die effiziente Suche in mehrdimensionalen Daten, und wir wollen verschiedene Lösungsstrategien für dieses Problem kennen lernen. Da eine exakte Suche zu teuer sein kann, interessieren wir uns auch für gute Approximationsstategien.
Vorkenntnisse: gute Kenntnisse von effizienten Suchalgorithmen, insbesondere bei der Suche in Baumstrukturen (AVL-Bäume, B-Bäume, Rot-Schwarz-Bäume, etc.) sowie Hashtabellen.
Anmeldung: Die Anmeldung zu Proseminaren erfolgt zentral.
Sie müssen sich selbständig Literatur zu ihrem Thema heraussuchen, es werden lediglich Startpunkte genannt.
Lernziele
Im Studienverlaufsplan der Bachelorstudiengänge Informatik / Angewandte Informatik bereitet das Proseminar auf das selbstständige wissenschaftliche Arbeiten vor, ganz konkret auf das Schreiben der Bachelorarbeit. So steht in der Modulbeschreibung:
Die Studierenden sollen ein einfaches Thema aus der Informatik eigenständig erarbeiten können. Sie sollen in der Lage sollen, mündlich und schriftlich in eigenen Worten darüber zu berichten und sich selbständig kritisch mit dem Thema auseinandersetzen. Die Studierenden sollen die elementaren Techniken der Literatursuche in Bibliotheken beherrschen und fremde Texte als solche angemessen zitieren können. Sie sollen in der Lage sein, eine mündliche Präsentation selbständig zu konzipieren und elementare Präsentationstechniken beherrschen. Sie sollen sich kritisch mit fremden Präsentationen auseinandersetzen können und Techniken der wissenschaftlichen Diskussion beherrschen.
Eine Ausarbeitung, die Selbständigkeit zeigen soll, manifestiert darüber hinaus die eigenständige Auseinandersetzung der Teilnehmer mit dem Thema und verdeutlicht die Fähigkeit, ein wissenschaftliches Thema schriftlich angemessen darzustellen.
Literatur und Themen
Im ersten Teil werden zunächst Präsentationen zu verschiedenen Aspekten des wissenschaftlichen Präsentierens und Arbeitens gehalten.
Im Mittelteil des Seminars wollen wir uns u.A. mit folgenden Themen und Literatur beschäftigen:
- k-d-Bäume
- Quadtrees
- Minhash
- M-Bäume
- R-Bäume
- R*-Bäume
- Cover Trees
- Vantage-Point Trees
- iDistance
- Locality Sensitive Hashing (LSH)
Struktur und Ablauf
Termine werden noch festgesetzt!
Dieses Proseminar (für Bachelor-Studierende aus der Informatik) besteht aus folgenden Komponenten:
- Präsentationstechniken, hier insbesondere wissenschaftliche Präsentation inkl. Regeln der guten wissenschaftlichen Praxis
- Themenvorträge (und peer-review dazu)
- Schriftliche Ausarbeitung (und peer-review dazu)
Für die peer-review phasen wird es jeweils eine Frist für den Entwurf, die Rückmeldungen dazu, und die abschließende Abgabe geben.
Bewertung
Die Abschluss-Note setzt sich wie folgt zusammen:
- 25% der Note für die Vorträge
- 15% der Note für die Mitarbeit im Seminar (insb. peer-review)
- 60% der Note für die schriftliche Ausarbeitung