LU02.L01 - Fallstudio Machine Learning

1. Supervised Learning VS Unsupervised Learning

  • Supervised Learning:Das Modell lernt mit gelabelten Daten, d. h. Eingabedaten und die richtige Antwort sind bekannt. Wie der klassische Frontalunterricht.
  • Unsupervised Learning: Das Modell bekommt keine Zielvariable und versucht selbst, Muster oder Strukturen zu finden. Wie Gruppenarbeit ohne Aufgabenstellung.

2. Handelt es sich bei diesem Problem um (mit Begründung): Klassifikation oder Regression?

  • Klassifikation
  • Begründung: Die Zielvariable Kaufentscheidung hat diskrete Werte (Ja / Nein). Zahlen vorhersagen wäre Regression, hier geht es um Kategorien.

3. Nenne Sie zwei typische Algorithmen, die für dieses Problem geeignet waeren, und begründen Sie jeweils in einem Satz.

  • Logistische Regression: Gut geeignet fuer binäre Klassifikationsprobleme und leicht interpretierbar.
  • Decision Tree: Trifft Entscheidungen anhand klarer Regeln und ist auch für Menschen nachvollziehbar.

4. Welche der oben genannten Merkmale sind numerisch, welche kategorisch?

  • Numerisch:
    • Alter
    • Anzahl der bisherigen Einkäufe
    • Verweildauer auf der Produktseite
  • Kategorisch:
    • Kaufentscheidung (Ja / Nein)

5. Warum ist es problematisch, die Zielvariable als Feature zu verwenden?

  • Weil das Modell sonst die Antwort bereits kennt.
  • Das nennt man Data Leakage und führt zu beeindruckend guten Ergebnissen, die in der Realität genau gar nichts taugen.

6. Beschreiben Sie in 4–5 Schritten den typischen Ablauf eines Machine-Learning-Projekts (von Daten bis Modellbewertung).

  1. Problem definieren (was soll vorhergesagt werden?)
  2. Daten sammeln und vorbereiten (bereinigen, skalieren, encoden)
  3. Daten in Trainings- und Testdaten aufteilen (80:20)
  4. Modell trainieren
  5. Modell evaluieren und verbessern
  6. Optionaler Schritt 6: Erkennen, dass alles komplizierter ist als gedacht.

7. Nennen Sie zwei Risiken, die auftreten können, wenn:

  • zu wenige Trainingsdaten vorhanden sind
    • Modell lernt keine stabilen Muster
    • Schlechte Generalisierung auf neue Daten
  • das Modell zu gut auf die Trainingsdaten passt
    • Sehr gute Trainingsgenauigkeit
    • Katastrophale Leistung bei neuen Daten

8. Was ist Overfitting – erklären Sie so, dass es auch jemand versteht, der glaubt, KI sei Bewusstsein.

  • Overfitting bedeutet, dass ein Modell die Trainingsdaten auswendig lernt, inklusive Zufall und Rauschen, anstatt allgemeine Muster zu erkennen.
  • Es ist wie jemand, der eine Matheaufgabe perfekt löst – solange sie exakt gleich aussieht wie im Heft.

Volkan Demir

  • de/modul/m245/learningunits/lu02/loesungen/l01.txt
  • Zuletzt geändert: 2026/04/08 08:31
  • von vdemir