Dies ist eine alte Version des Dokuments!
LU01a - Arten von Daten
| Überblick | Inhalt |
|---|---|
| Ziel | Du kannst Datenarten unterscheiden (qualitativ/quantitativ) und die passende Skala (nominal/ordinal/intervall/ratio) erklären. |
| Warum wichtig? | Die Datenart entscheidet, welche Kennzahlen (z.B. Mittelwert ja/nein) und welche Diagramme sinnvoll sind. |
| Kompetenzbezug | AG1/AF1 (Grundbegriffe verstehen & anwenden), Vorbereitung für Lagewerte/Verteilungen |
| Dauer | 1 Doppellektion (90’) |
1. Einstieg: Was bedeutet „Daten“?
In der Datenanalyse beschreibt man reale Beobachtungen in strukturierter Form, um daraus Erkenntnisse abzuleiten.
Beispiele aus dem Informatik-Alltag
Ladezeit einer Webseite in Millisekunden
Anzahl Fehler in einem Log pro Stunde
Betriebssystem der User (Windows/macOS/Linux)
Zufriedenheit der User (Skala 1–5)
HTTP-Statuscodes (200, 404, 500)
Wichtig: Bevor du Kennzahlen berechnest oder Diagramme zeichnest, musst du wissen: Welche Art von Daten ist das?
2. Grundbegriffe (kurz)
| Begriff | Bedeutung | Beispiel |
|---|---|---|
| Merkmal / Variable | Eigenschaft, die beobachtet wird | „Browser-Typ“ |
| Ausprägung | konkreter Wert einer Variable | „Firefox“ |
| Beobachtung / Datensatz | eine Messung/Eintrag | „Firefox“ bei Person A |
| Stichprobe | Teilmenge der Daten | 25 Lernende |
| Grundgesamtheit | alle möglichen Fälle | alle Lernenden der Schule |
3. Zwei Hauptklassen von Daten
3.1 Qualitative Daten (kategorisch)
Qualitative Daten sind Kategorien/Labels. Man rechnet damit nicht „normal“ (kein Mittelwert).
Beispiele
Betriebssystem: Windows / macOS / Linux
Sprache: DE / EN / FR
Bug-Typ: UI / Backend / Security
3.2 Quantitative Daten (numerisch)
Quantitative Daten sind Zahlenwerte, die etwas messen oder zählen. Hier sind mathematische Operationen sinnvoll (je nach Skala).
Beispiele
Ladezeit: 123 ms
RAM-Verbrauch: 2.4 GB
Anzahl Commits: 18
Merksatz: Qualitativ = Kategorien/Labels. Quantitativ = Zahlenwerte (zählen oder messen).
4. Skalentypen (Messniveaus)
Die Skala sagt dir, was du mit den Daten machen darfst.
4.1 Nominalskala (nur „gleich/ungleich“)
Keine Reihenfolge
Erlaubt: Häufigkeiten, Modus, Balkendiagramm, Kreisdiagramm
Nicht sinnvoll: Median, Mittelwert
Beispiele (Informatik)
Browser: Chrome / Firefox / Safari
HTTP-Methode: GET / POST / PUT
Statuscode als Kategorie: 200 / 404 / 500 → Achtung: Das sind Zahlen, aber sie funktionieren hier als Labels, nicht als Messwert!
4.2 Ordinalskala (Reihenfolge, aber Abstände unbekannt)
Rangfolge ist möglich
Abstände zwischen Stufen sind nicht zwingend gleich
Erlaubt: Median, Modus, Rangvergleiche, Boxplot (oft ok), Balkendiagramm
Mittelwert: meist nicht sinnvoll (nur mit Vorsicht)
Beispiele
Zufriedenheit: 1–5 (sehr schlecht … sehr gut)
Priorität: low / medium / high
Schulnoten (je nach System): Rangordnung vorhanden
4.3 Intervallskala (Abstände sinnvoll, aber kein „echtes Null“)
Differenzen sind sinnvoll (z.B. +10)
Nullpunkt ist willkürlich
Erlaubt: Mittelwert, Standardabweichung, Histogramm, Linie
Verhältnis („doppelt so viel“) ist nicht sinnvoll
Beispiele
Temperatur in °C (0°C ist nicht „keine Temperatur“)
Kalenderjahr (2026 ist nicht „doppelt so viel“ wie 1013)
4.4 Ratioskala / Verhältnisskala (Abstände + echtes Null)
Abstände sinnvoll und Null bedeutet „nichts“
Verhältnis ist sinnvoll („doppelt so viel“)
Erlaubt: alle üblichen Kennzahlen + viele Diagramme
Beispiele (Informatik)
Dateigrösse (0 MB = keine Daten)
Laufzeit/Antwortzeit (0 ms = keine Zeit)
Anzahl Requests (0 = kein Request)
Quick-Check: Wenn „0“ wirklich „nichts“ bedeutet → meist Ratioskala. Wenn Zahlen nur Codes sind (z.B. 404) → meist Nominalskala.
5. Diskret vs. Stetig (nur bei quantitativen Daten)
5.1 Diskrete Daten (zählbar, ganze Werte)
entstehen durch Zählen
Werte sind typischerweise ganze Zahlen
Beispiele
Anzahl Commits pro Woche
Anzahl Fehler pro Build
Anzahl User in einem Chatraum
5.2 Stetige Daten (messbar, beliebig fein)
entstehen durch Messen
theoretisch unendlich viele Zwischenwerte möglich
Beispiele
Ladezeit in ms (in der Realität gemessen, kann sehr fein sein)
CPU-Temperatur
Netzwerk-Latenz
6. Welche Kennzahlen und Diagramme passen?
| Datenart / Skala | Sinnvolle Kennzahlen | Typische Diagramme |
|---|---|---|
| Nominal (qualitativ) | absolute/relative Häufigkeit, Modus | Balken, Kreis |
| Ordinal (qualitativ) | Median, Modus, Quartile (oft ok) | Balken, (Boxplot oft ok) |
| Intervall (quantitativ) | Mittelwert, Median, Stdabw. | Histogramm, Linie, Boxplot |
| Ratio (quantitativ) | Mittelwert, Median, Stdabw., Verhältnisse | Histogramm, Linie, Boxplot |
| Diskret | Mittelwert/Median möglich (je nach Skala) | Balken, Histogramm (mit ganzen Klassen) |
| Stetig | Mittelwert/Median/Stdabw. | Histogramm, Dichtekurve, Boxplot |
7. Beispiele (Informatik-Kontext)
Beispiel 1: HTTP-Statuscodes
Frage: Ist 500 „mehr“ als 200? Antwort: Als Zahl ja – aber als Bedeutung nicht. Es sind Kategorien.
Datenklasse: qualitativ
Skala: nominal
Sinnvolle Auswertung: Häufigkeiten pro Code, Top-3 Codes, Balkendiagramm
Beispiel 2: Zufriedenheit 1–5
Datenklasse: qualitativ (Ordinal)
Skala: ordinal
Sinnvolle Auswertung: Median, Häufigkeiten, Verteilung als Balken
Interpretation: Median = 4 bedeutet „typisch eher gut“, aber „4 ist doppelt so gut wie 2“ ist nicht zwingend korrekt.
Beispiel 3: Ladezeit (ms)
Datenklasse: quantitativ
Skala: Ratio
Typ: stetig
Sinnvolle Auswertung: Mittelwert/Median/Stdabw., Boxplot (Ausreisser!), Histogramm
8. Übung: Datenarten klassifizieren
Auftrag: Bestimme für jede Variable:
qualitativ oder quantitativ?
Skala (nominal/ordinal/intervall/ratio)?
falls quantitativ: diskret oder stetig?
| Variable | qualit./quant. | Skala | diskret/stetig |
|---|---|---|---|
| Betriebssystem (Windows/macOS/Linux) | |||
| Anzahl Commits pro Woche | |||
| Ladezeit einer Seite (ms) | |||
| HTTP-Statuscode (200/404/500) | |||
| Zufriedenheit (1–5) | |||
| CPU-Temperatur in °C | |||
| Dateigrösse in MB |
Musterlösung (kurz)
Betriebssystem → qualitativ, nominal
Commits → quantitativ, ratio, diskret
Ladezeit → quantitativ, ratio, stetig
Statuscode → qualitativ, nominal
Zufriedenheit → qualitativ, ordinal
CPU-Temperatur °C → quantitativ, intervall, stetig
Dateigrösse MB → quantitativ, ratio, stetig
9. Häufige Fehler
„Zahlen = automatisch quantitativ“ → falsch. Codes (z.B. 404) sind oft nominal.
Mittelwert bei Ordinaldaten (z.B. Zufriedenheit) → kann täuschen.
Diskret/stetig verwechseln: Zählen = diskret, Messen = stetig.
Diagramm falsch gewählt: Kreisdiagramm für sehr viele Kategorien ist unübersichtlich → besser Balken.
