LU01a - Arten von Daten

Dies ist eine alte Version des Dokuments!

Ziel: Du kannst Variablen korrekt als qualitativ/quantitativ einordnen und das Messniveau (nominal/ordinal/intervall/ratio) bestimmen. Falls quantitativ: diskret/stetig.

Bevor du Kennzahlen (Mittelwert, Median, Standardabweichung) berechnest oder Diagramme wählst, musst du wissen, welche Art von Daten du hast. Die Datenart bestimmt:

welche Rechnungen sinnvoll sind (z.B. Mittelwert ja/nein)
welche Darstellungen passen (Balken, Histogramm, Boxplot)
welche Aussagen du machen darfst (z.B. „doppelt so viel“)

Qualitative Daten sind Kategorien/Labels. Die Werte sind Namen/Typen und keine Messzahlen.

Informatik-Beispiele (qualitativ)

Betriebssystem: Windows / macOS / Linux
Team-Rolle: Dev / Ops / QA
Build-Status: success / failed
Browser: Chrome / Firefox / Safari

Typische Auswertungen:

Häufigkeiten (wie oft kommt etwas vor?)
Modus (welche Kategorie ist am häufigsten?)

Quantitative Daten sind Zahlenwerte, die etwas zählen oder messen.

Informatik-Beispiele (quantitativ)

Anzahl Commits pro Woche (gezählt)
Anzahl offene Tickets im Sprint (gezählt)
Ladezeit einer Webseite in ms (gemessen)
Dateigrösse in MB (gemessen)
CPU-Temperatur in °C (gemessen)

Typische Auswertungen:

Mittelwert, Median
Streuung (z.B. Standardabweichung, später)

Merksatz: Qualitativ = Kategorien/Labels. Quantitativ = Zahlen zum Zählen/Messen.

Das Messniveau sagt dir, welche Vergleiche und welche Rechnungen sinnvoll sind.

keine Reihenfolge
sinnvoll: Häufigkeiten, Modus, Balkendiagramm
nicht sinnvoll: Median, Mittelwert

Informatik-Beispiele

Betriebssystem: Windows / macOS / Linux
Team-Rolle: Dev / Ops / QA
HTTP-Methode: GET / POST / PUT
HTTP-Statuscode: 200 / 404 / 500 (als Kategorie)

Reihenfolge ist vorhanden (höher/tiefer)
Abstände sind nicht eindeutig gleich gross
sinnvoll: Median, Rangvergleiche, (Häufigkeiten)
Mittelwert: nur mit Vorsicht

Informatik-Beispiele

Zufriedenheit 1–5 (sehr schlecht … sehr gut)
Priorität: low / medium / high
Severity: minor / major / critical

Differenzen sind sinnvoll (z.B. +10)
Nullpunkt bedeutet nicht „nichts“
sinnvoll: Mittelwert, Standardabweichung, Histogramm
Verhältnisse („doppelt so viel“) sind nicht sinnvoll

Informatik-Beispiele

CPU-Temperatur in °C (0°C ist nicht „keine Temperatur“)
Uhrzeit als Tageszeit (z.B. 14:00) (Abstände ok, aber „doppelt so spät“ ergibt keinen Sinn)

Null bedeutet „nichts“
Verhältnisse sind sinnvoll („doppelt so viele“, „halb so gross“)
sinnvoll: praktisch alle Kennzahlen & Diagramme

Informatik-Beispiele

Ladezeit in ms (0 ms = keine Zeit)
Dateigrösse in MB (0 MB = keine Daten)
Anzahl Commits/Tickets (0 = nichts)

Quick-Check: Wenn 0 wirklich „nichts“ bedeutet → meistens Ratio. Wenn Werte nur Codes sind → meistens Nominal.

Werte sind zählbar, typischerweise ganze Zahlen: 0, 1, 2, 3, …
entsteht durch Zählen

Informatik-Beispiele

Anzahl Commits pro Woche
Anzahl offene Tickets
Anzahl Logins pro Tag

Werte können theoretisch beliebig fein sein (z.B. 12.3, 12.31, 12.312, …)
entsteht durch Messen

Informatik-Beispiele

Ladezeit in ms
Downloadrate in Mbit/s
CPU-Temperatur

Achtung: Nur weil etwas wie eine Zahl aussieht, ist es nicht automatisch quantitativ.
HTTP-Statuscodes (200/404/500) sind meistens Kategorien → nominal.

Weitere häufige Fehler:

Ordinal = nicht automatisch Mittelwert! (Zufriedenheit 1–5: Median ist oft besser)
Intervall vs. Ratio verwechseln: °C (Intervall) vs. ms/MB (Ratio)
Diskret vs. Stetig: Zählen (diskret) vs. Messen (stetig)