Benutzerin:Gabriele Hornsteiner/ Datenanalyse/ Begriffsdefinitionen

Aus Wikibooks

Begriffsdefinitionen[Bearbeiten]

Merkmal[Bearbeiten]

Wir wollen für die benötigten Begriffsdefinitionen ein nicht ganz ernst gemeintes Beispiel verwenden.

Es wurden n = 7 Hunde befragt, wie gut ihnen das neue Fröhlix-Trockenfutter schmecke. Die Eingabe der Fragebögen in eine Datei ergab die unten folgende Liste. Anhand dieser Liste werden Begriffe der Datenanalyse erklärt.

  • Die Eigenschaften, die erhoben werden, also die Spalten, sind die Merkmale oder (statistische) Variablen x, y, .... In der Statistiksoftware werden sie Variablen genannt.
  • Das Objekt, dessen Eigenschaften erhoben (erfragt, gemessen) werden, ist die Untersuchungseinheit oder Merkmalsträger.
  • Die Menge aller Merkmalsträger ist die Grundgesamtheit.
  • Die möglichen Werte, die eine Variable annehmen kann, sind die Ausprägungen oder Realisationen.
  • Die konkrete Merkmalsausprägung von x, die eine Untersuchungseinheit Nummer i aufweist, ist der Merkmalswert, Beobachtungswert oder Beobachtung xi (i=1,2, ..., n). In der Statistiksoftware wird eine Zeile der Tabelle Fall oder Case genannt.

Name

Geschlecht
Merkmal
1=w, 2=m
u

Rasse
x

Alter
Merkmal
y

Note für Futter
1, ..., 5
Ausprägungen
z

Rex
Merkmalsträger

2

Schäferhund

3

1

Rexona

1

Mischling

5

4
Merkmalswert

Lassie
Fall

1
Fall

Collie
Fall

1
Fall

2
Fall

Hasso

2

Neufundländer

2

1

Strolchi
Merkmalsträger

2

Schnauzer

7

2

Susi

1

Spaniel

2

3

Waldi

2

Dackel

1
Merkmalswert

5

Es sind die Ausprägungen des Merkmals

Note: 1,2,3,4,5

und die Ausprägungen des Merkmals

Geschlecht: 1,2.


Skalierung des Merkmals[Bearbeiten]

Zunächst stellen wir das Skalenniveau eines Merkmals fest. Wir brauchen das, weil davon abhängt, welche Verfahren wir bei der Analyse verwenden können.


Nominalskala[Bearbeiten]

Merkmale wie

  • Haarfarbe: braun, blond
  • Berufstätig: ja/nein
  • Margarinemarke: Panorama, Botterama, ...

sind nominalskaliert. Die Ausprägungen des nominalskalierten Merkmals können nicht geordnet werden, man kann nur die Häufigkeiten der Ausprägungen abzählen und vergleichen. Es handelt sich um qualitative Merkmale. Erhalten die Ausprägungen Ziffern zugeordnet, besteht nur eine Verschlüsselung (Codierung): 1 = männlich; 2 = weiblich.

Ordinalskala[Bearbeiten]

Zwischen den Ausprägungen des ordinalskalierten (rangskalierten) Merkmals existiert eine Beziehung der Form mehr oder weniger, < oder >, besser oder schlechter o.ä., also eine Art natürlicher Reihenfolge. Beispiele eines ranglskalierten Merkmals sind

  • Sterne eines Hotels: *, **, ***, ...
  • Bestätigung einer Aussage: Stimme stark zu, stimme etwas zu, ..., stimme überhaupt nicht zu
  • Noten: 1, 2, ..., 5

Für die Ausprägungen lässt sich also eine Rangordnung feststellen, aber die Abstände zwischen den Rängen sind nicht definiert. Man kann beispielsweise nicht sagen, dass Note 2 doppelt so gut wie Note 4 ist.

Metrische Skala[Bearbeiten]

Die Abstände zwischen den Ausprägungen des metrisch skalierten Merkmal können gemessen werden. Es handelt sich bei den Ausprägungen um reelle Zahlen. Beispiele sind

  • Kinderzahl
  • Einkommen
  • Temperatur

Die metrischen Variablen werden noch in diskret und stetig unterschieden:

  • Ein Merkmal ist diskret (=unterschieden), wenn man die Ausprägungen abzählen kann.
    • Kinderzahl 0,1, 2, ...
  • Ein Merkmal ist stetig (kontinuierlich), wenn sich in einem beschränkten Intervall der reellen Zahlen unendlich viele Ausprägungen (überabzählbar viele) befinden.
    • Beispiele: Wasserstand in einem Stausee; Gewicht eines Goldstücks, Körpergröße

Streng genommen wird die metrische Skala noch in Intervallskala und Verhältnisskala unterschieden. Das würde hier aber zu weit führen.


Zurück zu Inhaltsverzeichnis