Bachelor-Projekt Wirtschaftsinformatik: Data Science for Web Applications
Typ und Verwendbarkeit
- WiInf-BSc: Wahlpflichtveranstaltung im Pflichtmodul InfB-Proj
- Informatik-, SSE- und MCI-BSc: Wahlpflichtveranstaltung im Pflichtmodul InfB-Proj
Voraussetzungen
Die Teilnehmerzahl ist auf 24 beschränkt.
Umfang
9 Leistungspunkte
6 SWS
Dozenten
Veranstaltungstermine
Mi, 9:00-14:00 Uhr, WiWi 1077
Anmeldung
Für die Teilnahme an diesem Modul ist unbedingt eine Anmeldung über STiNE innerhalb der STiNE-Anmeldephasen notwendig.
Prüfung
Prüfungsart: Präsentationen, Projektarbeit und praktische Arbeit
Data Science für Web-Applikationen
In dem Projekt geht es darum, dass sich die Studierenden in Gruppen von ca. 3 bis 4 Personen mit einer spannenden und aktuellen Problemstellung aus dem Gebiet des maschinellen Lernens (ML) und der Künstlichen Intelligenz (KI) praxisorientiert beschäftigen.
Zu Beginn des Projekts arbeiten sich die Studierenden gemeinsam in das Themengebiet Data Science, insbesondere in verschiedene Methoden des maschinellen Lernens, ein und machen sich mit Python vertraut (andere Programmiersprachen sind möglich). Anschließend werden einzelne Gruppen gebildet, die jeweils eine Problemstellung wählen und diese im weiteren Verlauf bearbeiten. Dabei werden dann nach dem Vorgehensmodell CRISP-DM verschiedene Untersuchungen durchgeführt, die schließlich zu einem Lösungsmodell führen, welches evaluiert werden soll und in eine Web-Anwendung implementiert werden kann. Die Themenfindung und Bildung von Schwerpunkten erfolgt durch die Studierenden in Zusammenarbeit mit ihren Betreuern.
Das Projekt zeichnet sich dadurch aus, dass konkrete praxisnahe Aufgaben bearbeitet werden.
Die Daten stammen aus verschiedenen Quellen im Internet (z.B. Kaggle, Social Media etc.) oder direkt aus der Zusammenarbeit mit Unternehmen, die sich zurzeit mit derartigen Problemen befassen.
Mögliche Problemstellungen sind zum Beispiel:
- Einsatzmöglichkeiten von Large Language Models (LLMs) im E-Commerce, in Recommender-Systemen, beim Web Scraping oder anderen Anwendungen
- Klassifikation von Kunden zur Bildung von Kundenprofilen und Prognose ihres Verhaltens
- Named Entity Recognition im Dokumentenmanagement zur Identifikation von bestimmten Inhalten (z.B. Adressen, Kundennummern, Rechnungsdaten etc.)
- Natural Language Processing (NLP) zur automatisierten Analyse von Texten, wie z.B. Tweets, Kundenrezensionen o.ä. (Sentiment Analyse)
- Topic Modeling zum Clustern von Texten, z.B. Tweets
- Computer Vision
- Betrugserkennung (z.B. bei Transaktionen, Anträgen, Selbstbedienungskassen u.ä.)
- Einschätzung von Immobilienpreisen oder auch Leasing-Rückkaufswerten
- Eigene Vorschläge von Studierenden sind möglich und erwünscht.
Je nach Themengebiet kommen unterschiedliche Methoden und Technologien des Maschinellen Lernens zur Lösung von Klassifikations- oder Regressionsproblemen zum Einsatz, einzeln oder in Ensembles, wie z.B.:
- Regression: künstliche neuronale Netze und andere Regressionsverfahren
- Klassifikation: Decision Trees/Random Forests, logistische Regression oder Support Vector Machines
- Verfahren des Ensemble Learning
- Deep Learning: Generative Pre-trained Transformer (GPT), LLMs, Convolutional Neural Network (CNN)
- Verfahren zum Topic Modeling, Top2Vec
Dabei tauchen auch je nach Aufgabenstellung typische Probleme auf, die im Lösungsweg berücksichtigt werden müssen, wie z.B.:
- Besonders geringes oder großes Datenvolumen (Attribute und/oder Samples)
- Datenvorverarbeitung: fehlende Werte, widersprüchliche Werte…
- Zielfunktion, insb. asymmetrische Bewertung verschiedener Ergebnisse
- Asymmetrische Verteilungen in den Daten
- Evaluation der Ergebnisse beim unüberwachten Lernen, insbesondere Bewertung von Ergebnissen beim Einsatz von GPTs und LLMs.
Am Ende der Veranstaltung wird eine schriftliche Ausarbeitung angefertigt, in der die gewählte Problemstellung beschrieben und der beschrittene Lösungsweg aufgezeigt wird. Dabei sollen sowohl theoretische als auch praxisorientierte Sichtweisen enthalten sein.
Davenport, T. H., P. Barth, R. Bean (2013). How „big data“ is different. MIT Sloan Management Review 54(1).
Gantz, J., D. Reinsel (2011). Extracting value from chaos. http://germany.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf. Letzter Zugriff: 04.01.2016.
Jacobs, A. (2009). The pathologies of big data. Communications of the ACM 52(8), 36-44.
Weitere Literatur:
Brown, B., M. Chui, J. Manyika (2011). Are you ready for the era of big data. McKinsey Quarterly 4, 24-35.
Krishnan, K. (2013) Data Warehousing in the Age of Big Data. Morgan Kaufman, Waltham, MA, USA.
Owen, S., R. Anil, T. Dunning, E. Friedman (2012). Mahout in Action. Manning, Shelter Island, NY, USA.
White, T. (2012) Hadoop. The Definitive Guide. 3. Aufl., O’Reilly, Sebastpol, CA, USA.
Chen, H., R.H.L. Chiang, V.C. Storey (2012) Business intelligence and analytics: From big data to big impact. MIS Quarterly 36(4), 1-24.