Moderne Ansätze des Machine Learning: Von neuronalen Netzen bis zur Bayesianischen Statistik (Seminar)
Allgemeine Informationen zum Seminar
Die Teilnehmer/innen dieses Seminars sollen ihre in den bisherigen Statistik-Vorlesungen erworbenen Kenntnisse in Richtung Machine Learning und Deep Learning erweitern und mit Hilfe der Statistiksoftware R oder Python auf wirtschaftswissenschaftliche Fragestellungen anwenden.
Teilnahmevoraussetzung
Grundvorlesungen „Statistik I“ und „Statistik II“.
Seminardurchführung
Das Seminar findet während des SoSe 2025 wöchentlich zweistündig jeden Freitag (vermutlich) von 13.15 bis 14.45 Uhr statt. Voraussetzung für die Erlangung des Seminarscheines ist die regelmäßige Teilnahme am Seminar. Der Leistungsnachweis wird erbracht durch eine Hausarbeit (ca. 13 Seiten) und einen Seminarvortrag von ca. 30 Minuten mit anschließender Diskussion von ca. 10 Minuten. Die Hausarbeit muss mindestens eine Woche vor dem Seminarvortrag abgegeben werden.
Vorbesprechung
Am Do, 30.01.2025 um 10:15 Uhr in den ersten 45 Minuten der Vorlesung „Regressionsanalyse“
Einteilung Seminar
Einteilung Seminar (pdf)Vorschläge für Datensätze
datasets-overview (pdf)Homepage
https://www.bwl.uni-hamburg.de/matstat/studium/sose2024/ml-dl-seminar/index.html
Seminarthemen und Einstiegsliteratur
Siehe die folgende Themanaufstellung:
Thema 1: Dimensionalitätsreduktion: PCA und t-SNE
Principal Component Analysis (PCA) ist eine lineare Methode, die die Dimensionen
eines Datensatzes reduziert, indem sie Variabilität in den Daten durch orthogonale Achsen (Hauptkomponenten) maximiert. t-SNE (t-distributed Stochastic Neighbor Embedding) ist eine nichtlineare Methode, die vor allem für die Visualisierung hochdimensionaler Daten genutzt wird, da sie lokale Strukturen gut abbilden kann. Beide Methoden
sind nützlich, um komplexe Daten zu vereinfachen und für maschinelle Lernmodelle
vorzubereiten.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Müller, A., Guido, S. (2016). Introduction to Machine Learning with Python: A Guide for Data Scientists. O’Reilly Media.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 2: Support Vector Machines: Theorie und Anwendung
Support Vector Machines (SVMs) sind Klassifikationsverfahren, die eine klare Trennung zwischen Klassen durch eine sogenannte „Hyperplane“ suchen. SVMs maximieren den Abstand zwischen den nächstgelegenen Datenpunkten der Klassen. Durch
den Kernel-Trick können SVMs auch bei nichtlinearen Problemen eingesetzt werden.
SVMs eignen sich besonders für kleine, hochdimensionale Datensätze wie die Textoder Bildklassifikation.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Raschka, S., & Mirjalili, V. (2019). Python Machine Learning. Packt Publishing.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 3: Gradient Boosting Machines und XGBoost
Gradient Boosting ist ein Ensemble-Verfahren, das mehrere schwache Modelle (wie
Entscheidungsbäume) zu einem starken Vorhersagemodell kombiniert. Jedes Modell
korrigiert die Fehler des vorherigen. XGBoost ist eine beliebte Implementierung von
Gradient Boosting, die für Geschwindigkeit und Leistung optimiert ist. Diese Methoden werden häufig für tabellarische Daten und in Wettbewerben verwendet.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Müller, A., Guido, S. (2016). Introduction to Machine Learning with Python: A Guide for Data Scientists. O’Reilly Media.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 4: Transfer Learning in Machine Learning
Transfer Learning verwendet vortrainierte Modelle, um Wissen von einer Aufgabe auf
eine ähnliche neue Aufgabe zu übertragen. Dies ist besonders nützlich, wenn nur wenige Trainingsdaten für die neue Aufgabe vorhanden sind. Bekannte vortrainierte Modelle wie ResNet (für Bilder) und BERT (für Texte) sind weit verbreitet. Transfer Learning
spart Rechenressourcen und verbessert die Effizienz bei datenarmen Szenarien.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• Goodfellow, I., Bengio, Y,. Courville, A. (2018). Deep Learning. Das umfassende Handbuch. Mitp.
• Chollet, F. (2021). Deep Learning with Python. Manning.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 5: Einführung in Neuronale Netze und ihre mathematischen Grundlagen
Neuronale Netze sind von biologischen Gehirnstrukturen inspiriert und bestehen aus
mehreren Schichten miteinander verbundener Neuronen. Jedes Neuron verarbeitet Eingaben, gewichtet sie und gibt sie durch Aktivierungsfunktionen wie Sigmoid oder ReLU weiter. Zu den mathematischen Grundlagen gehören Matrizenmultiplikation und
der Backpropagation-Algorithmus, der das Netz optimiert. Neuronale Netze werden in
der Bild-, Sprach- und Textverarbeitung eingesetzt.
Literaturquellen:
• Aggarwal, C. C. (2024). Neural Networks and Deep Learning: A Textbook. Springer.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 6: Autoencoder und Dimensionenreduktion mit Deep Learning
Autoencoder sind neuronale Netze, die darauf trainiert werden, Eingabedaten zu komprimieren und sie dann wiederherzustellen. Sie bestehen aus einem Encoder, der die
Daten komprimiert, und einem Decoder, der die Daten rekonstruiert. Autoencoder werden zur Dimensionenreduktion, Datenkompression und Feature-Extraktion verwendet.
Varianten wie denoising Autoencoder können auch zur Verbesserung verrauschter Daten eingesetzt werden.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• Aggarwal, C. C. (2024). Neural Networks and Deep Learning: A Textbook. Springer.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 7: Convolutional Neural Networks (CNNs)
CNNs sind auf die Verarbeitung von Bilddaten spezialisiert. Sie verwenden Faltungsoperationen und Pooling-Schichten, um Merkmale wie Kanten, Texturen und Muster
in Bildern zu extrahieren. Diese Netzwerke werden in der Bildklassifikation, Objekterkennung und medizinischen Bildanalyse verwendet. Mathematisch basiert die Faltung
auf dem Prinzip der Filteranwendung über die Pixel eines Bildes.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Aggarwal, C. C. (2024). Neural Networks and Deep Learning: A Textbook. Springer.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 8: Recurrent Neural Networks (RNNs)
RNNs sind neuronale Netze, die speziell für die Verarbeitung sequenzieller Daten entwickelt wurden. Sie haben Rückkopplungsschleifen, die es ihnen ermöglichen, Informationen über frühere Eingaben zu speichern. RNNs finden Anwendungen in der
Zeitreihenanalyse, maschinellen Übersetzung und Sprachverarbeitung. Allerdings leiden sie unter dem vanishing gradient problem, was das Training langer Sequenzen erschwert.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Aggarwal, C. C. (2024). Neural Networks and Deep Learning: A Textbook. Springer.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 9: Long Short-Term Memory (LSTM)
LSTMs sind eine spezielle Form von RNNs, die das vanishing gradient problem lösen.
LSTM-Zellen verwenden drei Tore (Eingangs-, Ausgangs- und Vergessens-Tore), um
Informationen über lange Sequenzen hinweg zu speichern oder zu vergessen. Dadurch
sind sie besonders nützlich für Aufgaben wie maschinelle Übersetzung, Zeitreihenanalyse und Sprachverarbeitung.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• Chollet, F. (2021). Deep Learning with Python. Manning.
• Aggarwal, C. C. (2024). Neural Networks and Deep Learning: A Textbook. Springer.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 10: Time Series Forecasting mit Machine Learning
Zeitreihenanalyse verwendet historische Daten, um zukünftige Werte zu prognostizieren. Klassische Methoden wie ARIMA und neuere Machine-Learning-Modelle wie
LSTMs werden verwendet, um Muster in den Daten zu erkennen. Zeitreihenanalyse
ist in Bereichen wie Finanzen, Wettervorhersage und Bestandsmanagement weit verbreitet.
Literaturquellen:
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021,2023). An Introduction to Statistical Learning. Springer.
• Peixeiro, M. (2022). Time Series Forecasting in Python. Manning.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 11: Reinforcement Learning: Theorie und Anwendungen
Reinforcement Learning (RL) ist ein Lernparadigma, bei dem ein Agent durch Belohnungen und Strafen lernt, wie er optimale Aktionen in einer Umgebung ausführt.
Bekannte Algorithmen sind Q-Learning und Deep Q-Networks (DQN). Anwendungen
von RL umfassen Robotik, Spiele (z.B. AlphaGo) und autonome Fahrzeuge.
Literaturquellen:
• Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
• Aggarwal, C. C. (2024). Neural Networks and Deep Learning: A Textbook. Springer.
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 12: Hidden Markov Models (HMM)
HMMs sind probabilistische Modelle, die sequentielle Daten modellieren, indem sie
latente Zustände verwenden. Sie finden Anwendungen in der Spracherkennung, Genomforschung und bei Textanwendungen. HMMs basieren auf Übergangs- und Emissionswahrscheinlichkeiten, um die wahrscheinlichsten Zustandsfolgen zu schätzen.
Literaturquellen:
• Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
• Barber, D. (2012). Bayesian Reasoning and Machine Learning. Cambridge University Press.
• Bishop, C. M. (2016). Pattern Recognition and Machine Learning. Springer.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.
Thema 13: Bayesianische Statistik und Machine Learning
Bayesianische Statistik verwendet Wahrscheinlichkeiten, um Unsicherheiten in Modellen zu quantifizieren. Im Gegensatz zu klassischen Methoden liefert sie Wahrscheinlichkeitsverteilungen für Parameter. In Machine Learning wird sie zur Modellierung
von Unsicherheiten verwendet. Naive Bayes und Gaussian Mixture Models sind gängige Anwendungen.
Literaturquellen:
• Barber, D. (2012). Bayesian Reasoning and Machine Learning. Cambridge University Press.
• Bishop, C. M. (2016). Pattern Recognition and Machine Learning. Springer.
• Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
• Alpaydin, E. (2021). Introduction to Machine Learning. MIT Press.