Mathematik: Statistik: Deskriptive Statistik
Aus Wikibooks
Inhaltsverzeichnis |
Einführung
Die Verfahren der deskriptiven Statistik (beschreibende Statistik, empirische Statistik) haben als Grundlage die Erhebung bzw. Beobachtung von Daten. Es geht hier darum, diese Daten in geeigneter Weise zusammenzufassen, sie zu ordnen, sie grafisch darzustellen usw. Ziele der deskriptiven Statistik:
- Die Daten einer empirischen Untersuchung möglichst übersichtlich zu präsentieren, so dass die wesentlichen Informationen schnell und optimal aufgenommen werden können. Beispiele: Tabellen, Säulendiagramme, Durchschnitte, Prognosen etc. Auf eine verteilungstheoretische Analyse wird verzichtet.
- Man interessiert sich für die unbekannte Verteilung eines statistischen Merkmals, für Kennwerte der Verteilung usw. Da eine vollständige Erfassung dieses Merkmals meist zu teuer oder auch unmöglich ist, wird man sich auf eine Teilerhebung, eine Stichprobe, beschränken. Man schätzt nun mit Hilfe dieser Stichprobe die gesuchten Werte. Dabei versucht man, die Wahrscheinlichkeit einer Fehlschätzung miteinzubeziehen.
Analyse eines Merkmals
Die Analyse des Merkmals hängt u.a. davon ab, welche Informationen man wünscht:
- Verteilung: Ist sie symmetrisch oder schief, ein- oder mehrgipflig?
- Niveau der Daten, z.B. Durchschnitt, Median?
- Streuung der Einzelwerte: hoch oder niedrig?
- Sind mehrere Merkmale korreliert?
Definitionen in der deskriptiven Statistik
Beispiel:
Es wurden n = 7 Hunde befragt, wie gut ihnen das neue Fröhlix-Trockenfutter schmecke. Die Eingabe der Fragebögen in eine Datei ergab die unten folgende Liste. Anhand dieser Liste sollen Begriffe der deskriptiven Statistik erklärt werden.
Die Eigenschaften, die erhoben werden, sind die Merkmale (statistische Variablen) x, y, .... Das Objekt, dessen Eigenschaften erhoben (erfragt, gemessen) werden, ist die Untersuchungseinheit (Merkmalsträger). Die Menge aller statistischen Einheiten ist die Grundgesamtheit (statistische Masse). Die möglichen Werte, die eine Variable annehmen kann, sind die Ausprägungen (Realisationen). Die konkrete Merkmalsausprägung von x, die eine Untersuchungseinheit Nummer i aufweist, ist der Merkmalswert (Beobachtungswert, Beobachtung) xi (i=1,2, ..., n).
|
Name |
Geschlecht |
Rasse |
Alter |
Note für Futter |
|---|---|---|---|---|
|
Rex |
2 |
Schäferhund |
3 |
1 |
|
Rexona |
1 |
Mischling |
5 |
4 |
|
Lassie |
1 |
Collie |
1 |
2 |
|
Hasso |
2 |
Neufundländer |
2 |
1 |
|
Strolchi |
2 |
Schnauzer |
7 |
2 |
|
Susi |
1 |
Spaniel |
2 |
3 |
|
Waldi |
2 |
Dackel |
1 |
5 |
Es sind die Ausprägungen des Merkmals
- Note: 1,2,3,4,5
und die Ausprägungen des Merkmals
- Geschlecht: 1,2.
Skalierung des Merkmals
Beispiel
Grundlage des Beispiels ist die Hundetabelle von oben. Der Student Paul leistet beim Hersteller von Fröhlix ein Praktikum ab. Er soll die Ergebnisse der Befragung präsentieren. Er fasst die Hundetabelle von oben zusammen und erhält u.a.
Durchschnittliches Alter eines Hundes:
Ein befragter Hund war also im Durchschnitt 3 Jahre alt.
Durchschnittliches Geschlecht eines Hundes:
Ein Hund hatte also im Durchschnitt 1,57 Geschlecht. ????? Würden Sie den Studenten Paul später in dieser Firma einstellen?
Es ist natürlich höherer Schwachsinn, vom Merkmal Geschlecht den Durchschnitt zu bilden. Man kann damit keinen Durchschnitt bilden, denn seine Ausprägungen sind keine Zahlen. Geschlecht ist ein qualitatives Merkmal. Es ist anders skaliert als Alter.
Es gibt also Merkmale mit unterschiedlichen Messbarkeitsarten. Die Vorschrift für die Messbarkeit ist in einer Skala festgehalten.
Nominalskala
Merkmale wie
- Haarfarbe: braun, blond, ...;
- berufstätig ja/nein;
- Margarinemarke: Panorama, Botterama, ...
sind nominalsskaliert. Die Ausprägungen des nominalskalierten Merkmals können nicht geordnet werden, man kann sie nur vergleichen und abzählen. Es handelt sich um qualitative Merkmale. Erhalten die Ausprägungen Ziffern zugeordnet, handelt es sich nur um eine Verschlüsselung (Codierung): 1 = männlich, 2 = weiblich.
Ordinalskala
Zwischen den Ausprägungen des ordinalskalierten (rangskalierten) Merkmals existiert eine Beziehung der Form mehr oder weniger, < oder >, besser oder schlechter o.ä., also eine Art natürlicher Reihenfolge.
Beispiele
- Sterne eines Hotels: *; **; ***; ...
- Beurteilung eines Produktes durch einen Konsumenten: Sehr gut, eher gut, eher schlecht, ganz schlecht
- Noten: 1, 2, 3, 4, 5
Für die Ausprägungen läßt sich also eine Rangordnung feststellen, aber die Abstände zwischen den Rängen sind nicht festgelegt. So ist beispielsweise die Note Vier nicht doppelt so schlecht wie Zwei.
Metrische Skala
Die Abstände zwischen den Ausprägungen des metrisch skalierten (quantitativen) Merkmals können gemessen werden. Es handelt sich bei den Ausprägungen um (reelle) Zahlen.
Beispiele: Kinderzahl, Einkommen, Temperatur, ...
Die metrischen Variablen werden noch in diskret und stetig unterschieden:
Ein Merkmal ist diskret (=unterschieden), wenn man die Ausprägungen abzählen kann.
- Beispiel
- Kinderzahl: 0, 1, 2, ... , 20.
- Mein "Einkommen", wenn ich falsch parke: 3 Euro (gesparte Parkgebühr) oder -10 Euro (Strafzettel).
Es gibt auch abzählbar unendlich viele Ausprägungen:
- Zahl der Ausfälle einer Maschine in einem Jahr: 0, 1, 2, ...
Ein Merkmal ist stetig (kontinuierlich), wenn sich in einem beschränkten Intervall der reellen Zahlen unendlich viele Ausprägungen (überabzählbar viele) befinden.
Beispiele: Wasserstand in einem Stausee; Gewicht eines Goldstücks; Temperatur; Körpergröße.
Bemerkung: Oft sind Merkmale eigentlich diskret, aber mit sehr vielen, nah beieinanderliegenden Ausprägungen, z.B. Einwohnerzahl, Preise (in Cents), usw. Hier definiert man das Merkmal zweckmäßigerweise als stetig, da es sich so besser analysieren läßt (quasistetig).
Übung
Wie sind die folgenden Merkmale skaliert?
- Täglicher Bierkonsum der Studentin Paula
- - in Flaschen
- - in Litern
- Bekenntnis: 1= röm.-kath., 2 = evang., 3 = sonst
- Gewicht von Bernhardinern
- Aufgabe: schwer - leicht
- Zahl der zustehenden Urlaubstage
- Jeansmarke



