SoSe 21: Multivariate Verfahren (V)
Natalia Rojas Perilla
Kommentar
Inhalte & Qualifikationsziele
Die Studierenden erlangen vertiefte Kenntnisse an der Schnittstelle zwischen Multivariater Statistik, Statistical Learning und Data Mining. Sie werden in der Lage sein, Verfahren aus dem Bereich supervised und unsupervised learning in entsprechender Software eigenständig durchzuführen und die Ergebnisse zu visualisieren/ interpretieren. Dieses Wissen kann auf unterschiedliche Fragestellungen der Volkswirtschaftslehre, Wirtschaftsinformatik und Statistik angewendet werden.
Moderne statistische Methoden aus dem Bereich Multivariater Statistik, Statistical Learning und Data Mining.
Kurze Gliederung
- Einführung
- Beispiel zur Motivation mit Mobilfunkdaten
- Diskussion und Definition von Daten/ Big data
- Einzelne Schritte in der Analyse
- Diskussion von Grundbegriffen
-
Spezielle Datensätze
-
Einführung grundlegender Datensätze, die im Kurs analysiert werden: Wettkampfergebnisse "Zehnkampf", Wohnungspreise in Boston, Flugverkehr, ...
-
Visualisierung von Daten
- Ziele der Visualisierung
- R Pakete zur Erstellung von Grafiken
- Einfache bis hin zu komplexen Visualisierungen: Bar-, Box- und Scatterplots; Tree- und Heatmaps; Mosaic plots; kombinierte Visualisierungen, ...
-
Dimensionsreduktion mit Hilfe der Hauptkomponentenanalyse
- Was muss/ soll die Dimension in Datensätzen reduziert werden?
- (Mathematische) Herleitung der Hauptkomponentenanalyse
- Hauptkomponentenanalyse in R mit Interpretation
- Diskussion von anwendungsorientierten Aspekten am Beispiel des Datensatzes "Zehnkampf"
-
Evaluierung von Methoden
- Einführung einfacher Prädiktions- und Klassifikationsmethoden
- Overfitting und Einteilung des Datensatzes (Training-, Validierungs- und Testdaten)
- Qualitätsmaße für die Evaluierung
- Kreuzvalidierung und Bootstrap
-
Prädiktions- und Klassifikationsmethoden
- Methoden basierend auf Entscheidungsbäumen
- Bagging
- Random Forest
- Anwendungsbeispiele in R
-
Clusteranalyse
- Hierarchische Verfahren
- Partitionierende Verfahren
- Anwendungsbeispiele in R
Termine
Asynchrone Formate (zeitversetzte Aufzeichnung der Vorlesung),
verfügbar ab dienstags 8.00 Uhr
Anrechenbarkeit: Master Economics, Schwerpunktbereich Quantitative Analyse (6 LP)
Zugangsvoraussetzungen & Vorkenntnisse: Keine
Prüfungsleistung: Seminararbeit
Kurssprache: Englisch
Kontakt: Prof. Dr. Natalia Rojas
Schließen14 Termine
Regelmäßige Termine der Lehrveranstaltung