Proseminar Sequential Pattern Mining
In diesem Proseminar beschäftigen wir uns mit dem Thema Sequential Pattern Mining, das sich mit der Identifikation häufiger Teilsequenzen in sequentiellen Datensätzen befasst. Das Seminar vermittelt den Studierenden die theoretischen Grundlagen und Algorithmen, die für das Mining von häufigen Sequenzen entwickelt wurden.
Wir werden uns insbesondere mit Erweiterungen klassischer Ansätze wie dem Apriori-Algorithmus auseinandersetzen, um diese auf sequenzielle Daten anzuwenden. Zu den behandelten Themen gehören unter anderem die Definition von Frequent Subsequences, verschiedene Algorithmusansätze wie GSP (Generalized Sequential Pattern) und SPADE (Sequential Pattern Discovery using Equivalence classes), sowie Evaluationsmethoden zur Bewertung der Ergebnisse.
Frequent Subsequence Mining findet Anwendung in Bereichen wie der Bioinformatik, der Analyse von Geschäftsprozessen, und anderen datenintensiven Disziplinen bei denen die zeitliche Abfolge von Ereignissen eine Rolle spielt. Die Studierenden haben die Möglichkeit, sich intensiv mit den Konzepten auseinanderzusetzen und deren Relevanz für aktuelle Forschungsfragen zu erkennen.
Das Proseminar richtet sich an Bachelor-Studierende der Informatik, die Interesse an Datenanalyse und algorithmischen Verfahren haben.
Vorkenntnisse: Grundkenntnisse in der Datenanalyse und in effizienten Algorithmen. Vorkenntnisse über Frequent Itemsets sind wünschenswert.
Anmeldung: Die Anmeldung zu Proseminaren erfolgt zentral.
Sie müssen sich selbständig Literatur zu ihrem Thema heraussuchen, es werden lediglich Startpunkte genannt.
Lernziele
Im Studienverlaufsplan der Bachelorstudiengänge Informatik / Angewandte Informatik bereitet das Proseminar auf das selbstständige wissenschaftliche Arbeiten vor, ganz konkret auf das Schreiben der Bachelorarbeit. So steht in der Modulbeschreibung:
Die Studierenden sollen ein einfaches Thema aus der Informatik eigenständig erarbeiten können. Sie sollen in der Lage sollen, mündlich und schriftlich in eigenen Worten darüber zu berichten und sich selbständig kritisch mit dem Thema auseinandersetzen. Die Studierenden sollen die elementaren Techniken der Literatursuche in Bibliotheken beherrschen und fremde Texte als solche angemessen zitieren können. Sie sollen in der Lage sein, eine mündliche Präsentation selbständig zu konzipieren und elementare Präsentationstechniken beherrschen. Sie sollen sich kritisch mit fremden Präsentationen auseinandersetzen können und Techniken der wissenschaftlichen Diskussion beherrschen.
Eine Ausarbeitung, die Selbständigkeit zeigen soll, manifestiert darüber hinaus die eigenständige Auseinandersetzung der Teilnehmer mit dem Thema und verdeutlicht die Fähigkeit, ein wissenschaftliches Thema schriftlich angemessen darzustellen.
Literatur und Themen
weitere folgen
- Agrawal, Rakesh, and Ramakrishnan Srikant. "Mining sequential patterns." Proceedings of the eleventh international conference on data engineering. IEEE, 1995.
- Srikant, Ramakrishnan, and Rakesh Agrawal. "Mining sequential patterns: Generalizations and performance improvements." International conference on extending database technology. Berlin, Heidelberg: Springer Berlin Heidelberg, 1996.
- Han, Jiawei, et al. "FreeSpan: frequent pattern-projected sequential pattern mining." Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining. 2000.
- Zaki, Mohammed J. "SPADE: An efficient algorithm for mining frequent sequences." Machine learning 42 (2001): 31-60.
- Pel, J., et al. "Prefixspan: Mining sequential patterns by prefix-projected growth." Proc. 17th IEEE International Conference on Data Engineering (ICDE). Heidelberg, Germany. 2001.
- Ayres, Jay, et al. "Sequential pattern mining using a bitmap representation." Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. 2002.
- Tzvetkov, Petre, Xifeng Yan, and Jiawei Han. "TSP: Mining top-k closed sequential patterns." Knowledge and Information Systems 7 (2005): 438-457.
- Yang, Zhenglu, Yitong Wang, and Masaru Kitsuregawa. "LAPIN: effective sequential pattern mining algorithms by last position induction for dense databases." Advances in Databases: Concepts, Systems and Applications: 12th International Conference on Database Systems for Advanced Applications, DASFAA 2007, Bangkok, Thailand, April 9-12, 2007. Proceedings 12. Springer Berlin Heidelberg, 2007.
- Gao, Chuancong, et al. "Efficient mining of frequent sequence generators." Proceedings of the 17th international conference on World Wide Web. 2008.
- Salvemini, Eliana, et al. "Fast sequence mining based on sparse id-lists." Foundations of Intelligent Systems: 19th International Symposium, ISMIS 2011, Warsaw, Poland, June 28-30, 2011. Proceedings 19. Springer Berlin Heidelberg, 2011.
- Yi, Shengwei, et al. "An effective algorithm for mining sequential generators." Procedia Engineering 15 (2011): 3653-3657.
- Fournier-Viger, Philippe, et al. "TKS: efficient mining of top-k sequential patterns." Advanced Data Mining and Applications: 9th International Conference, ADMA 2013, Hangzhou, China, December 14-16, 2013, Proceedings, Part I 9. Springer Berlin Heidelberg, 2013.
- Fournier-Viger, Philippe, et al. "Fast vertical mining of sequential patterns using co-occurrence information." Advances in Knowledge Discovery and Data Mining: 18th Pacific-Asia Conference, PAKDD 2014, Tainan, Taiwan, May 13-16, 2014
- Petitjean, François, et al. "Skopus: Mining top-k sequential patterns under leverage." Data Mining and Knowledge Discovery 30 (2016): 1086-1111.
- Fournier-Viger, Philippe, et al. "VGEN: fast vertical mining of sequential generator patterns." Data Warehousing and Knowledge Discovery: 16th International Conference, DaWaK 2014, Munich, Germany, September 2-4, 2014. Proceedings 16. Springer International Publishing, 2014.
Struktur und Ablauf
Termine werden noch festgesetzt!
Dieses Proseminar (für Bachelor-Studierende aus der Informatik) besteht aus folgenden Komponenten:
- Themenvorträge (und peer-review dazu)
- Schriftliche Ausarbeitung (und peer-review dazu)
Für die peer-review phasen wird es jeweils eine Frist für den Entwurf, die Rückmeldungen dazu, und die abschließende Abgabe geben.
Zusätzlich benötigen Sie einen Präsentationskurs als Studienleistung, der separat von der Fakultät angeboten wird (siehe LSF)
Bewertung
Die Abschluss-Note setzt sich wie folgt zusammen:
- 25% der Note für die Vorträge
- 15% der Note für die Mitarbeit im Seminar (insb. peer-review)
- 60% der Note für die schriftliche Ausarbeitung