Zum Inhalt springen

Benutzerin:Gabriele Hornsteiner/ Datenanalyse/ Analyse eines Merkmals

Aus Wikibooks

Eine kurze Analyse für den Anfang

[Bearbeiten]

Wir wollen uns für den Anfang mit der Beispieldatei Schiffe befassen. Es handelt sich hier um eine - recht willkürlich - zusammengestellte Auflistung von Artillerieschiffen bei Anbruch des zweiten Weltkriegs.

Betrachten wir die Variable lang, die die Länge eines Kriegsschiffs repräsentiert. Es handelt sich hier um ein metrisches diskretes Merkmal. Wir wollen uns zuerst einen Eindruck der Verteilung verschaffen und erstellen mit SPSS ein Histogramm.

Histogramm der Länge eines Kriegsschiffs

Wir erkennen, dass die einzelnen Beobachtungen offensichtlich in gleich breite Intervalle einsortiert werden und dass dann die Zahl der Beobachungen in einem Intervall die Höhe einer Säule definiert. Hier handelt es sich um Intervalle der Breite 10 m. Das Muster der Verteilung ist etwas unklar, es sind mehrere Maxima auszumachen. So etwas deutet auf eine heterogene Gesamtheit hin, also auf eine Gesamtheit mit einigen sehr unterschiedlichen Teilmengen. Ein Beschriftung rechts der Grafik gibt uns noch zusätzliche Informationen:

Der Mittelwert beträgt und die Standardabweichung der Daten .

Eine genauere Information über die Variable lang erfahren wir, wenn wir uns eine deskriptive Analyse geben lassen, etwa in SPSS:

Deskriptive Analyse des Merkmals Länge (lang)

Wir greifen den Mittelwert heraus und erinnern uns, dass er die Summe der Beobachungswerte, geteilt durch die Anzahl der Beobachtungen, darstellt:

also

und wir gewinnen die Erkenntnis, dass ein Schiff im Durchschnitt ca. 165 m lang war. Wir haben hier ein Maß für die Größenordnung, das Niveau oder auch die Lage der Daten. Der Mittelwert ist also ein Lageparameter.

Ebenfalls ein Lageparameter ist der Median. Der Median gibt den Wert in der Mitte an, wenn die Daten der Größe nach geordnet sind. Er ist in unserem Fall 174. Man kann also sagen, dass die 50% kleinsten Schiffe höchstens 174 m lang waren.

Bemerkung: Das arithmetische Mittel ist eigentlich nur für metrisch skalierte Daten zulässig, denn bei rangskalierten Daten können Bruchteile der gemessenen Einheit nicht mehr sinnvoll interpretiert werden. Man merkt es an einer Aussage wie "Ein Hotel hatte im Durchschnitt 2,3 Sterne". Dem Leser ist sicher das eigentlich aufgefallen. In der Praxis wird meistens diese Vorschrift großzügig umgangen, so werden beispielsweise in der Markforschung oder in der Medizin Mittelwerte bei rangskalierten Daten unbekümmert gebildet, da der Mittelwert den Anschein der größeren Genauigkeit vermittelt. Die persönliche Meinung des Autors dazu ist, dass hier das Faktische die Normen, wenn nicht festlegt, so doch aufweicht. Der Autor toleriert die Mittelwertbildung rangskalierter Daten als Orientierungshilfe, misst aber den genauen Werten nicht die volle Aussagekraft zu. Der Median kann allerdings bei rangskalierten Daten als Lageparameter fungieren.

Die Standardabweichung ist ebenfalls ein Klassiker der Datenanalyse. Sie ist die Wurzel aus der Varianz s2 der Stichprobe. Diese Varianz berechnen wir als

.

Sie ist die mittlere quadratische Abweichung der einzelnen Beoachtungen vom Mittelwert und gibt uns einen Eindruck von der Streubreite der Werte. Der numerische Wert ist unmittelbar meistens schwierig zu interpretieren, weil er nicht normiert ist. Aber im Zusammenhang der Analyse lassen sich wichtige Erkenntnisse gewinnen.

In der obigen Tabelle ist noch ein 95%-Konfidenzintervall für die durchschnittliche Länge alle Kriegsschiffe in der Grundgesamtheit angegeben. Es beträgt [156,61;173,23]. Wir entnehmen diesem Intervall als Information, dass die Wahrscheinlichkeit, dass der Erwartungswert der Zufallsvariablen Länge, die für alle Kriegsschiffe zutrifft, mit einer 95%igen Wahrscheinlichkeit in diesem Intervall liegt. Die Breite des Intervalls wird durch die Standardabweichung der Werte gebildet. Je größer die Standardabweichung, desto breiter das Intervall, desto schlechter die Abschätzung des Erwartungswertes.


Da die Vermutung naheliegt, dass wir es bei unseren Daten mit heterogenen Teilgesamtheiten zu tun haben, wurde die deskriptive Analyse noch nach den Schiffsklassen unterteilt. Es folgt ein etwas entschlackter Auszug aus der SPSS-Tabelle:

Univariate Statistiken: Länge (m) (lang)

Klasse (gruppe)

Statistik

Standardfehler

1 Schlacht

Mittelwert

208,19

5,98

5% getrimmtes Mittel

208,53

Median

204

Varianz

1145,25

Standardabweichung

33,84

Interquartilbereich

51

3 schw Kreuzer

Mittelwert

185,1

3,36

5% getrimmtes Mittel

186,24

Median

188

Varianz

236,99

Standardabweichung

15,39

Interquartilbereich

17

4 lei Kreuzer

Mittelwert

160,3

3,85

5% getrimmtes Mittel

162,1

Median

163

Varianz

488,91

Standardabweichung

22,11

Interquartilbereich

29,5

5 Zerstörer

Mittelwert

105,79

2,16

5% getrimmtes Mittel

105,26

Median

103,5

Varianz

130,62

Standardabweichung

11,43

Interquartilbereich

14

Dass die Mittelwerte für jede Schiffsklasse anders ist, haben schon die Histogramme angedeutet. Es ist aber auch jede Varianz anders und wir sehen, dass beispielsweise die Daten bei den Schlachtschiffen stärker streuen als bei den Zerstörern. Die Varianz bzw. Standardabweichung sind Streuungs- oder Dispersionsparameter.

Wir probieren etwas Neues aus: In SPSS hat man bei den Grafiken Histogramm und Balkendiagramm zur Auswahl. Wir lassen jetzt die Variable lang durch ein Balkendiagramm darstellen. Das Ergebnis ist befremdlich. Was ist hier passiert? Beim Balkendiagramm wird gezählt, wie häufig eine Ausprägung aufgetreten ist. Da bei einem stetigen Merkmal sehr viele verschiedene Ausprägungen auftreten, ähnelt das Balkendiagramm einem Rasen. Das Balkendiagramm eignet sich also für Variablen, die wenig Ausprägungen haben.

Wir betrachten jetzt die Datei Evaluation. Es sind dies reale Daten. Sehen wir uns die Variable stverst: "Der Stoff der Vorlesung war verständlich" etwas näher an. Diese Variable ist rangskaliert.

Ein Säulendiagramm verrät uns, dass die meisten Hörer den Stoff eher unverständlich fanden.

Säulendiagramm

Im Gegensatz zum stetigen Merkmal haben wir sehr viel mehr Möglichkeiten, die Verteilung der Variablen grafisch darzustellen. Man könnte ein Kreisdiagramm erstellen, ein Diagramm mit waagrechten Balken usw.

Was gibt es noch zu sagen? Der Median der Variablen Stverst ist 3. Das arithmetische Mittel beträgt 2,83. Dieses Lagemaß ist bei rangskalierten Variablen bekanntlicherweise unzulässig, bietet aber eine gewisse Orientierung, was die Verteilung der Antworten anbelangt.


Zurück zu Inhaltsverzeichnis