Bachelor-Projekt Wirtschaftsinformatik: Data Science for Web Applications
Typ und Verwendbarkeit
- WiInf-BSc: Wahlpflichtveranstaltung im Pflichtmodul InfB-Proj
- Informatik-, SSE- und MCI-BSc: Wahlpflichtveranstaltung im Pflichtmodul InfB-Proj
Voraussetzungen
Die Teilnehmerzahl ist auf 24 beschränkt.
Umfang
9 Leistungspunkte
6 SWS
Dozenten
Veranstaltungstermine
Di, 9:00-14:00 Uhr, WiWi 2043/2047
Anmeldung
Für die Teilnahme an diesem Modul ist unbedingt eine Anmeldung über STiNE innerhalb der STiNE-Anmeldephasen notwendig.
Prüfung
Prüfungsart: Präsentationen, Projektarbeit und praktische Arbeit
Data Science für Web-Applikationen
In dem Projekt geht es darum, dass sich die Studierenden in Gruppen von ca. 3 - 4 Personen mit einer spannenden und aktuellen Problemstellung aus dem Gebiet Data Science praxisorientiert beschäftigen.
Zu Beginn des Projekts arbeiten sich die Studierenden gemeinsam in das Themengebiet Data Science, insbesondere in Data Mining-Methoden ein und machen sich mit Python vertraut. (Andere Programmiersprachen sind möglich.) Anschließend werden einzelne Gruppen gebildet, die jeweils eine Problemstellung wählen und diese im weiteren Verlauf bearbeiten. Dabei werden dann nach dem CRISP-DM-Prozess verschiedene Untersuchungen durchgeführt, die schließlich zu einem Lösungsmodell führen.
Das Projekt zeichnet sich dadurch aus, dass konkrete praxisnahe Aufgaben bearbeitet werden.
Die Daten stammen aus verschiedenen Quellen im Internet oder direkt aus der Zusammenarbeit mit Unternehmen, die sich zurzeit mit derartigen Problemen befassen.
Mögliche Problemstellungen sind zum Beispiel:
- Einsatzmöglichkeiten von Large Language Models (LLM) im E-Commerce, in Recommender-Systemen, beim Web Scraping oder anderen Anwendungen
- Klassifikation von Kunden zur Bildung von Kundenprofilen und Prognose ihres Verhaltens
- Recommender-Systeme für die Empfehlung von Musik, Filmen oder anderen Produkten (wie z.B. bei Spotify, Netflix oder Amazon)
- Text-Mining im Dokumentenmanagement zur Identifikation von bestimmten Inhalten (z.B. Adressen, Kundennummern, Rechnungsdaten etc.)
- Natural Language Processing (NLP) zur automatisierten Analyse von Texten, wie z.B. Tweets, Kundenrezensionen o.ä. (Sentiment Mining)
- Topic Modeling zum Clustern von Texten, z.B. Tweets
- Auswertung von Bild-/Video-/Sprach-Daten
- Betrugserkennung (z.B. bei Transaktionen, Anträgen, Selbstbedienungskassen u.ä.)
- Einschätzung von Immobilienpreisen oder auch Leasing-Rückkaufswerten
- Eigene Vorschläge von Studierenden sind möglich
Je nach Themengebiet kommen unterschiedliche Methoden und Technologien des Maschinellen Lernens zur Lösung von Klassifikations- oder Regressionsproblemen zum Einsatz, einzeln oder in Ensembles, wie z.B.:
- Künstliche Neuronale Netze und andere Regressionsverfahren
- Decision Trees/Random Forests und logistische Regression
- Support Vector Machines
- Boosting-Verfahren
- Generative Pre-trained Transformer (GPT)
- Verfahren zum Topic Modeling (LDA oder BERT)
Dabei tauchen auch je nach Problemstellung typische Probleme auf, die im Lösungsweg berücksichtigt werden müssen, wie z.B.:
- besonders geringes oder großes Datenvolumen (Attribute und/oder Samples)
- Datenvorverarbeitung: fehlende Werte, widersprüchliche Werte…
- Zielfunktion, insb. asymmetrische Bewertung verschiedener Ergebnisse
- asymmetrische Verteilungen in den Daten
Am Ende der Veranstaltung wird eine schriftliche Ausarbeitung („Projektbericht“) angefertigt, in der die gewählte Problemstellung beschrieben und der beschrittene Lösungsweg aufgezeigt wird. Dabei sollen sowohl theoretische als auch praxisorientierte Sichtweisen enthalten sein.
Davenport, T. H., P. Barth, R. Bean (2013). How „big data“ is different. MIT Sloan Management Review 54(1).
Gantz, J., D. Reinsel (2011). Extracting value from chaos. http://germany.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf. Letzter Zugriff: 04.01.2016.
Jacobs, A. (2009). The pathologies of big data. Communications of the ACM 52(8), 36-44.
Weitere Literatur:
Brown, B., M. Chui, J. Manyika (2011). Are you ready for the era of big data. McKinsey Quarterly 4, 24-35.
Krishnan, K. (2013) Data Warehousing in the Age of Big Data. Morgan Kaufman, Waltham, MA, USA.
Owen, S., R. Anil, T. Dunning, E. Friedman (2012). Mahout in Action. Manning, Shelter Island, NY, USA.
White, T. (2012) Hadoop. The Definitive Guide. 3. Aufl., O’Reilly, Sebastpol, CA, USA.
Chen, H., R.H.L. Chiang, V.C. Storey (2012) Business intelligence and analytics: From big data to big impact. MIS Quarterly 36(4), 1-24.