Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| de:modul:m245:learningunits:lu03:theorie:03 [2025/12/18 15:03] – gelöscht vdemir | de:modul:m245:learningunits:lu03:theorie:03 [2026/04/30 14:11] (aktuell) – vdemir | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| + | ====== LU03c - Kaggle.com: Titanic Competition ====== | ||
| + | ===== Einleitung ===== | ||
| + | |||
| + | {{: | ||
| + | |||
| + | Die Titanic-Challenge auf Kaggle ist der klassische Einstieg in die Welt der Data Science. Das Ziel ist es, basierend auf Passagierdaten vorherzusagen, | ||
| + | |||
| + | <wrap hi>Wie so oft bei solchen neuen Herausforderungen: | ||
| + | |||
| + | Die Lösung dieser Competition ist weniger eine Frage des kompliziertesten Algorithmus, | ||
| + | |||
| + | ===== Leitfaden ===== | ||
| + | |||
| + | ==== 1. Explorative Datenanalyse (EDA) ==== | ||
| + | Bevor Sie mit der Modellierung beginnen, sollten Sie die zugrunde liegenden Muster verstehen. | ||
| + | * **Hypothesenbildung: | ||
| + | * **Visualisierung: | ||
| + | * **Identifikation von Ausreissern: | ||
| + | |||
| + | ==== 2. Datenbereinigung und Feature Engineering ==== | ||
| + | Dieser Schritt ist entscheidend für die Qualität Ihrer Vorhersagen. | ||
| + | |||
| + | * **Umgang mit fehlenden Werten: | ||
| + | * Füllen Sie fehlende Werte im Feld Age nicht einfach mit dem globalen Durchschnitt. Nutzen Sie stattdessen den Median innerhalb der jeweiligen Anrede-Gruppen (z. B. „Master“ für Jungen, „Miss“ für junge Frauen). | ||
| + | * Ersetzen Sie fehlende Werte bei Embarked durch den häufigsten Einstiegshafen. | ||
| + | * **Erstellung neuer Merkmale (Feature Engineering): | ||
| + | * **FamilySize: | ||
| + | * **IsAlone: | ||
| + | * **Titel-Extraktion: | ||
| + | |||
| + | ==== 3. Datenvorbereitung für den Algorithmus ==== | ||
| + | Maschinen lernen aus Zahlen, nicht aus Texten. | ||
| + | * **Encoding: | ||
| + | * **Skalierung: | ||
| + | |||
| + | ==== 4. Modellwahl und Validierung ==== | ||
| + | Wählen Sie ein Modell, das robust gegenüber verrauschten Daten ist. | ||
| + | * **Modellauswahl: | ||
| + | * **Validierungsstrategie: | ||
| + | |||
| + | ==== 5. Hyperparameter-Optimierung ==== | ||
| + | Verfeinern Sie die Parameter Ihres Modells (z. B. die Anzahl der Bäume oder die maximale Tiefe im Random Forest). Werkzeuge wie GridSearchCV helfen Ihnen dabei, die optimale Konfiguration systematisch zu finden. | ||
| + | |||
| + | ==== 6. Der finale Export ==== | ||
| + | Nachdem Sie Ihr Modell auf den Testdatensatz angewendet haben, erstellen Sie die Datei submission.csv. Achten Sie strikt darauf, dass die PassengerId und die Vorhersage (Survived) exakt dem geforderten Format entsprechen. | ||
| + | |||
| + | Mit diesem methodischen Vorgehen werden Sie eine Platzierung im oberen Drittel des Leaderboards erreichen, ohne auf externe Datenquellen zurückgreifen zu müssen. | ||
| + | |||
| + | |||
| + | ===== Zusammenfassung des Vorgehens ===== | ||
| + | ^Phase ^Kernaktivität ^Zielsetzung | | ||
| + | ^Analyse |Deskriptive Statistik| Verständnis der Überlebensfaktoren | | ||
| + | ^Preprocessing |Imputation & Encoding |Maschinenlesbarkeit herstellen | | ||
| + | ^Engineering |Neue Variablen erschaffen |Verborgene Informationen nutzbar machen | | ||
| + | ^Training |Random Forest / XGBoost |Mustererkennung und Klassifizierung | | ||
| + | ^Optimierung |Hyperparameter-Tuning |Maximierung der Genauigkeit | | ||
| + | |||
| + | ===== Lernvideos aus Youtube ===== | ||
| + | |||
| + | ==== Beginner Kaggle Data Science Project Walk-Through (Titanic) - 38 Min. ==== | ||
| + | |||
| + | {{: | ||
| + | |||
| + | ==== Beginner Data Science Portfolio Project Walkthrough (Kaggle Titanic) - 2 Stunden 20 Min. ==== | ||
| + | |||
| + | {{: | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | [[https:// | ||