Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| de:modul:m245:learningunits:lu03:theorie:03 [2025/10/22 15:48] – ↷ Seite von modul:m245:learningunits:lu03:theorie:03 nach de:modul:m245:learningunits:lu03:theorie:03 verschoben msuter | de:modul:m245:learningunits:lu03:theorie:03 [2026/04/30 14:11] (aktuell) – vdemir | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| - | ====== | + | ====== |
| - | ==== Einleitung ===== | + | ===== Einleitung ===== |
| - | Der Grundgedanke des Innovationsmodul II ist es eine Innovation vorzubereiten und den Nachweis zu bringen, dass diese grundsätzlich möglich ist. Gemäss Definition ist unter dem Begriff Innovation //eine neue Idee/ | + | |
| - | ===== Ausgangslage ===== | + | {{: |
| - | Seit dem die breite Masse der Schweizer Bevölkung Zugriff auf AI-Technologie hat, hat sich unser Alltag sehr geändert. Viele Aufgaben, die früher // | + | |
| - | Ungeachten dessen, wollen wir bei diesem Thema die Grenzen der AI in der Applikationsentwicklung in Erfahrung bringen. | + | |
| - | ===== Projektauftrag extremeAI ===== | + | Die Titanic-Challenge auf Kaggle |
| - | Erstellen Sie eine Webapplikation unter Verwendung die CRUD-fähig | + | |
| - | - Datengrundlage/Datenmodell | + | <wrap hi>Wie so oft bei solchen neuen Herausforderungen: |
| - | - Datenbestand/ | + | |
| - | - Prototype (UX) | + | |
| - | - Applikationsarchitektur | + | |
| - | - Front-End | + | |
| - | - Back-End | + | |
| - | - Testing | + | |
| - | Als Ideen können | + | Die Lösung dieser Competition ist weniger eine Frage des kompliziertesten Algorithmus, |
| - | - Adressverwaltung | + | ===== Leitfaden ===== |
| - | - Musik-Verwaltung | + | |
| - | - Administration für Vereine | + | |
| - | - Webshop | + | |
| - | - Ressourcenverwaltung (Multimedia-Geräte) | + | |
| - | - Weitere Ideen nach Rücksprache mit der Lehrperson | + | |
| + | ==== 1. Explorative Datenanalyse (EDA) ==== | ||
| + | Bevor Sie mit der Modellierung beginnen, sollten Sie die zugrunde liegenden Muster verstehen. | ||
| + | * **Hypothesenbildung: | ||
| + | * **Visualisierung: | ||
| + | * **Identifikation von Ausreissern: | ||
| + | ==== 2. Datenbereinigung und Feature Engineering ==== | ||
| + | Dieser Schritt ist entscheidend für die Qualität Ihrer Vorhersagen. | ||
| + | * **Umgang mit fehlenden Werten: | ||
| + | * Füllen Sie fehlende Werte im Feld Age nicht einfach mit dem globalen Durchschnitt. Nutzen Sie stattdessen den Median innerhalb der jeweiligen Anrede-Gruppen (z. B. „Master“ für Jungen, „Miss“ für junge Frauen). | ||
| + | * Ersetzen Sie fehlende Werte bei Embarked durch den häufigsten Einstiegshafen. | ||
| + | * **Erstellung neuer Merkmale (Feature Engineering): | ||
| + | * **FamilySize: | ||
| + | * **IsAlone: | ||
| + | * **Titel-Extraktion: | ||
| + | |||
| + | ==== 3. Datenvorbereitung für den Algorithmus ==== | ||
| + | Maschinen lernen aus Zahlen, nicht aus Texten. | ||
| + | * **Encoding: | ||
| + | * **Skalierung: | ||
| + | |||
| + | ==== 4. Modellwahl und Validierung ==== | ||
| + | Wählen Sie ein Modell, das robust gegenüber verrauschten Daten ist. | ||
| + | * **Modellauswahl: | ||
| + | * **Validierungsstrategie: | ||
| + | |||
| + | ==== 5. Hyperparameter-Optimierung ==== | ||
| + | Verfeinern Sie die Parameter Ihres Modells (z. B. die Anzahl der Bäume oder die maximale Tiefe im Random Forest). Werkzeuge wie GridSearchCV helfen Ihnen dabei, die optimale Konfiguration systematisch zu finden. | ||
| + | |||
| + | ==== 6. Der finale Export ==== | ||
| + | Nachdem Sie Ihr Modell auf den Testdatensatz angewendet haben, erstellen Sie die Datei submission.csv. Achten Sie strikt darauf, dass die PassengerId und die Vorhersage (Survived) exakt dem geforderten Format entsprechen. | ||
| + | |||
| + | Mit diesem methodischen Vorgehen werden Sie eine Platzierung im oberen Drittel des Leaderboards erreichen, ohne auf externe Datenquellen zurückgreifen zu müssen. | ||
| + | |||
| + | |||
| + | ===== Zusammenfassung des Vorgehens ===== | ||
| + | ^Phase ^Kernaktivität ^Zielsetzung | | ||
| + | ^Analyse |Deskriptive Statistik| Verständnis der Überlebensfaktoren | | ||
| + | ^Preprocessing |Imputation & Encoding |Maschinenlesbarkeit herstellen | | ||
| + | ^Engineering |Neue Variablen erschaffen |Verborgene Informationen nutzbar machen | | ||
| + | ^Training |Random Forest / XGBoost |Mustererkennung und Klassifizierung | | ||
| + | ^Optimierung |Hyperparameter-Tuning |Maximierung der Genauigkeit | | ||
| + | |||
| + | ===== Lernvideos aus Youtube ===== | ||
| + | |||
| + | ==== Beginner Kaggle Data Science Project Walk-Through (Titanic) - 38 Min. ==== | ||
| + | |||
| + | {{: | ||
| + | |||
| + | ==== Beginner Data Science Portfolio Project Walkthrough (Kaggle Titanic) - 2 Stunden 20 Min. ==== | ||
| + | |||
| + | {{: | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | [[https:// | ||