LU02.L01 - Fallstudio Machine Learning
Auftrag A: Grundlagen/Theorie
1. Supervised Learning VS Unsupervised Learning
- Supervised Learning:Das Modell lernt mit gelabelten Daten, d. h. Eingabedaten und die richtige Antwort sind bekannt. Wie der klassische Frontalunterricht.
- Unsupervised Learning: Das Modell bekommt keine Zielvariable und versucht selbst, Muster oder Strukturen zu finden. Wie Gruppenarbeit ohne Aufgabenstellung.
2. Handelt es sich bei diesem Problem um (mit Begründung): Klassifikation oder Regression?
- Klassifikation
- Begründung: Die Zielvariable Kaufentscheidung hat diskrete Werte (Ja / Nein). Zahlen vorhersagen wäre Regression, hier geht es um Kategorien.
3. Nenne Sie zwei typische Algorithmen, die für dieses Problem geeignet waeren, und begründen Sie jeweils in einem Satz.
- Logistische Regression: Gut geeignet fuer binäre Klassifikationsprobleme und leicht interpretierbar.
- Decision Tree: Trifft Entscheidungen anhand klarer Regeln und ist auch für Menschen nachvollziehbar.
Auftrag B: Datenverständnis
4. Welche der oben genannten Merkmale sind numerisch, welche kategorisch?
- Numerisch:
- Alter
- Anzahl der bisherigen Einkäufe
- Verweildauer auf der Produktseite
- Kategorisch:
- Kaufentscheidung (Ja / Nein)
5. Warum ist es problematisch, die Zielvariable als Feature zu verwenden?
- Weil das Modell sonst die Antwort bereits kennt.
- Das nennt man Data Leakage und führt zu beeindruckend guten Ergebnissen, die in der Realität genau gar nichts taugen.
Auftrag C: Praxisdenken
6. Beschreiben Sie in 4–5 Schritten den typischen Ablauf eines Machine-Learning-Projekts (von Daten bis Modellbewertung).
- Problem definieren (was soll vorhergesagt werden?)
- Daten sammeln und vorbereiten (bereinigen, skalieren, encoden)
- Daten in Trainings- und Testdaten aufteilen (80:20)
- Modell trainieren
- Modell evaluieren und verbessern
- Optionaler Schritt 6: Erkennen, dass alles komplizierter ist als gedacht.
7. Nennen Sie zwei Risiken, die auftreten können, wenn:
- zu wenige Trainingsdaten vorhanden sind
- Modell lernt keine stabilen Muster
- Schlechte Generalisierung auf neue Daten
- das Modell zu gut auf die Trainingsdaten passt
- Sehr gute Trainingsgenauigkeit
- Katastrophale Leistung bei neuen Daten
8. Was ist Overfitting – erklären Sie so, dass es auch jemand versteht, der glaubt, KI sei Bewusstsein.
- Overfitting bedeutet, dass ein Modell die Trainingsdaten auswendig lernt, inklusive Zufall und Rauschen, anstatt allgemeine Muster zu erkennen.
- Es ist wie jemand, der eine Matheaufgabe perfekt löst – solange sie exakt gleich aussieht wie im Heft.
