LU03d - Kaggle.com: Begrifflichkeiten

Einleitung

Um die Titanic-Challenge erfolgreich zu meistern, ist ein tiefes Verständnis dieser Kernbegriffe unerlässlich. Nachfolgend finden Sie eine kleine Auswahl.

1. Random Forest

Stellen Sie sich vor, Sie fragen nicht nur einen Experten um Rat, sondern ein ganzes Komitee. Ein Random Forest (zu Deutsch: Zufallswald) besteht aus einer Vielzahl von einzelnen Entscheidungsbäumen, die unabhängig voneinander trainiert werden.

2. Mean (Arithmetisches Mittel)

Der Mean ist der klassische Durchschnittswert. Sie berechnen ihn, indem Sie alle Werte einer Spalte addieren und durch die Anzahl der Werte teilen.

3. Median (Zentralwert)

Der Median ist der Wert, der genau in der Mitte einer sortierten Datenreihe liegt. 50 Prozent der Werte sind kleiner oder gleich, 50 Prozent sind grösser oder gleich dem Median.

4. Confusion Matrix (Konfusionsmatrix)

Die Confusion Matrix ist das ultimative Werkzeug, um die Leistung Ihres Klassifikationsmodells zu bewerten. Sie zeigt Ihnen nicht nur, wie oft Sie recht hatten, sondern auch, welche Art von Fehlern Sie machen.

Sie ist typischerweise als Tabelle aufgebaut:

Vorhersage: Überlebt Vorhersage: Gestorben
Realität: Überlebt True Positive (TP) False Negative (FN)
Realität: Gestorben False Positive (FP) True Negative (TN)

5. Der Modus (Modalwert)

Während Mean und Median für numerische Werte (wie Alter oder Ticketpreis) gedacht sind, ist der Modus der Wert, der in einer Datenreihe am häufigsten vorkommt.

6. Die Standardabweichung (Standard Deviation)

Dieser Wert beschreibt, wie stark die Daten um den Mittelwert (Mean) streuen.

Volkan Demir