Bachelor-Projekt Wirtschaftsinformatik: Data Science for Web Applications

Typ und Verwendbarkeit

WiInf-BSc: Wahlpflichtveranstaltung im Pflichtmodul InfB-Proj
Informatik-, SSE- und MCI-BSc: Wahlpflichtveranstaltung im Pflichtmodul InfB-Proj

Voraussetzungen

Die Teilnehmerzahl ist auf 24 beschränkt.

Umfang

9 Leistungspunkte
6 SWS

Dozenten

Dr. Kai Brüssau, Dr. Robert Stahlbock

Veranstaltungstermine

Mi, 9:00-14:00 Uhr, WiWi 1077

Anmeldung

Für die Teilnahme an diesem Modul ist unbedingt eine Anmeldung über STiNE innerhalb der STiNE-Anmeldephasen notwendig.

Prüfung

Prüfungsart: Präsentationen, Projektarbeit und praktische Arbeit

Data Science für Web-Applikationen

In dem Projekt geht es darum, dass sich die Studierenden in Gruppen von ca. 3 bis 4 Personen mit einer spannenden und aktuellen Problemstellung aus dem Gebiet des maschinellen Lernens (ML) und der Künstlichen Intelligenz (KI) praxisorientiert beschäftigen.

Zu Beginn des Projekts arbeiten sich die Studierenden gemeinsam in das Themengebiet Data Science, insbesondere in verschiedene Methoden des maschinellen Lernens, ein und machen sich mit Python vertraut (andere Programmiersprachen sind möglich). Anschließend werden einzelne Gruppen gebildet, die jeweils eine Problemstellung wählen und diese im weiteren Verlauf bearbeiten. Dabei werden dann nach dem Vorgehensmodell CRISP-DM verschiedene Untersuchungen durchgeführt, die schließlich zu einem Lösungsmodell führen, welches evaluiert werden soll und in eine Web-Anwendung implementiert werden kann. Die Themenfindung und Bildung von Schwerpunkten erfolgt durch die Studierenden in Zusammenarbeit mit ihren Betreuern.

Das Projekt zeichnet sich dadurch aus, dass konkrete praxisnahe Aufgaben bearbeitet werden.
Die Daten stammen aus verschiedenen Quellen im Internet (z.B. Kaggle, Social Media etc.) oder direkt aus der Zusammenarbeit mit Unternehmen, die sich zurzeit mit derartigen Problemen befassen.

Mögliche Problemstellungen sind zum Beispiel:

Einsatzmöglichkeiten von Large Language Models (LLMs) im E-Commerce, in Recommender-Systemen, beim Web Scraping oder anderen Anwendungen
Klassifikation von Kunden zur Bildung von Kundenprofilen und Prognose ihres Verhaltens
Named Entity Recognition im Dokumentenmanagement zur Identifikation von bestimmten Inhalten (z.B. Adressen, Kundennummern, Rechnungsdaten etc.)
Natural Language Processing (NLP) zur automatisierten Analyse von Texten, wie z.B. Tweets, Kundenrezensionen o.ä. (Sentiment Analyse)
Topic Modeling zum Clustern von Texten, z.B. Tweets
Computer Vision
Betrugserkennung (z.B. bei Transaktionen, Anträgen, Selbstbedienungskassen u.ä.)
Einschätzung von Immobilienpreisen oder auch Leasing-Rückkaufswerten
Eigene Vorschläge von Studierenden sind möglich und erwünscht.

Je nach Themengebiet kommen unterschiedliche Methoden und Technologien des Maschinellen Lernens zur Lösung von Klassifikations- oder Regressionsproblemen zum Einsatz, einzeln oder in Ensembles, wie z.B.:

Regression: künstliche neuronale Netze und andere Regressionsverfahren
Klassifikation: Decision Trees/Random Forests, logistische Regression oder Support Vector Machines
Verfahren des Ensemble Learning
Deep Learning: Generative Pre-trained Transformer (GPT), LLMs, Convolutional Neural Network (CNN)
Verfahren zum Topic Modeling, Top2Vec

Dabei tauchen auch je nach Aufgabenstellung typische Probleme auf, die im Lösungsweg berücksichtigt werden müssen, wie z.B.:

Besonders geringes oder großes Datenvolumen (Attribute und/oder Samples)
Datenvorverarbeitung: fehlende Werte, widersprüchliche Werte…
Zielfunktion, insb. asymmetrische Bewertung verschiedener Ergebnisse
Asymmetrische Verteilungen in den Daten
Evaluation der Ergebnisse beim unüberwachten Lernen, insbesondere Bewertung von Ergebnissen beim Einsatz von GPTs und LLMs.

Am Ende der Veranstaltung wird eine schriftliche Ausarbeitung angefertigt, in der die gewählte Problemstellung beschrieben und der beschrittene Lösungsweg aufgezeigt wird. Dabei sollen sowohl theoretische als auch praxisorientierte Sichtweisen enthalten sein.

Davenport, T. H., P. Barth, R. Bean (2013). How „big data“ is different. MIT Sloan Management Review 54(1).

Gantz, J., D. Reinsel (2011). Extracting value from chaos. http://germany.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf. Letzter Zugriff: 04.01.2016.

Jacobs, A. (2009). The pathologies of big data. Communications of the ACM 52(8), 36-44.

Weitere Literatur:

Brown, B., M. Chui, J. Manyika (2011). Are you ready for the era of big data. McKinsey Quarterly 4, 24-35.

Krishnan, K. (2013) Data Warehousing in the Age of Big Data. Morgan Kaufman, Waltham, MA, USA.

Owen, S., R. Anil, T. Dunning, E. Friedman (2012). Mahout in Action. Manning, Shelter Island, NY, USA.

White, T. (2012) Hadoop. The Definitive Guide. 3. Aufl., O’Reilly, Sebastpol, CA, USA.

Chen, H., R.H.L. Chiang, V.C. Storey (2012) Business intelligence and analytics: From big data to big impact. MIS Quarterly 36(4), 1-24.

Bachelor-Projekt Wirtschaftsinformatik: Data Science for Web Applications

Data Science für Web-Applikationen

Downloads und Infos