Statistik: Häufigkeitsverteilung eines metrischen Merkmals mit wenigen, verschiedenen Ausprägungen

Aus Wikibooks

Urliste

Beispiel

n = 10 „Pfundschalen“ Erdbeeren wurden nachgewogen. Es ergab sich durch Nachwiegen die Urliste


x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
480 500 510 450 400 490 505 510 480 480

mit dem Merkmal x: Gewicht eines Schälchens (g). Die Werte wurden in der Reihenfolge der Erhebung, also ungeordnet, als Urliste erfasst. Diese Art der Darstellung ist unübersichtlich und daher nur für wenige Beobachtungen geeignet.

Urlisten können auch mehrere, unterschiedlich skalierte Merkmale enthalten. Beispielsweise ist die Tabelle mit den Hunden eine Urliste.

Häufigkeitsverteilung

Liegt ein metrisch skaliertes Merkmal oder ein ordinalskaliertes Merkmal mit vielen Ausprägungen vor, kann man zunächst einmal die Urliste der Größe nach ordnen, um einen gewissen Eindruck zu erhalten.

Beispiel

Die Indizes in den eckigen Klammern bedeuten, dass die Beobachtungen der Größe nach geordnet wurden.

x[1] x[2] x[3] x[4] x[5] x[6] x[7] x[8] x[9] x[10]
400 450 480 480 480 490 500 505 510 510

Man erkennt nun, dass über die Hälfte der Schälchen untergewichtig waren.

Allerdings ist das Sortieren mühsam, fehleranfällig und doch nicht sehr informativ. Mit dem Zweig-Blätter-Diagramm (stem-and-leaf display) kann man jedoch sowohl metrische Beobachtungen relativ leicht sortieren als auch eine erste Häufigkeitsverteilung erzeugen.

Zweig-Blätter-Diagramm

Beispiel:

Für das Jahr 2003 liegt das reale Wachstum des Bruttoinlandsprodukts für 38 europäische Staaten vor (© Statistisches Bundesamt, Wiesbaden 2003 [1])

 4,7  1,1  3,9 -0,1  4,7  1,8  0,2  4,8  1,4  1,9  0,3  5,2  7,4  9,0  2,6  0,4  0,7  7,2 -0,8
 0,3  0,7  3,7 -1,3  4,9  7,3  1,6 -0,5  4,0  4,2  2,3  2,4  2,9  5,8  4,8  2,9  2,1  4,7  2,0

Wir wollen die Daten ordnen und einen Eindruck von der Häufigkeitsverteilung gewinnen. Dazu werden wir jetzt ein Zweig-Blätter-Diagramm oder, für Anglophile, ein Stem-and-Leaf-Display erzeugen.

Zuerst wird der Zweig gemacht - aus den Einsern:

Dann hängen wir die Blätter an den Zweig, und zwar, indem wir von links nach rechts durch die Daten wandern:

Der erste Wert ist 4,7. Das Blatt 7 wird an den Zweig 4 gehängt

 

 

Der zweite Wert ist 1,1, das Blatt 1 wird an die 1 gehängt

Es folgen 3,9 -0,1 4,7 1,8 ...

 

 

Schließlich erhalten wir

Diese Prozedur war schnell erledigt. Wir bekommen schon einen guten Eindruck von der Verteilung der Beobachtungswerte. Kippen wir das Diagramm um 90°, erkennen wir eine Art Säulendiagramm. Außerdem können wir nun die Werte schnell der Größe nach sortieren. Wir erhalten nun unser Stengel-Blätter-Diagramm:

 

 

Für unsere Zwecke ist das Stem-and-Leaf-Display jetzt ausreichend. Ein Stem-and-Leaf-Display kann aber auch noch mehr Einzelheiten enthalten. Ist die Zahl der erhobenen Beobachtungen sehr groß, können die Werte in Klassen tabellarisch zusammengefaßt werden. Diese Art der Analyse erfolgt weiter unten.

Summenfunktion

absolute Summenfunktion

Beispiel

Ein Autohaus hat von seinen n = 10 Filialen die Zahl der verkauften LKWs des letzten Jahres vorliegen. Es folgt die Urliste mit den xi geordnet:

x[1] x[2] x[3] x[4] x[5] x[6] x[7] x[8] x[9] x[10]
1 5 8 8 10 10 10 17 22 24

Wir wollen die absolute Summenfunktion S(a) bestimmen. S(a) gibt an, wieviel Beobachtungen xi ≤ a sind:

Zum Beispiel:

  • S(17) = 8, also sind 8 Beobachtungen höchstens 17
  • S(8) = 4, also gibt es 4 Filialen, die höchstens 8 LKWs verkauft haben

Wir leiten nun die Summenfunktion her, von links nach rechts:

  • Zum Beispiel: S(0,1) = 0, denn keine Filiale hat höchstens 0,1 LKW verkauft. Ebenso ist S(0,9) = 0, usw... also
S(a) = 0 für a < 1.


  • Zum Beispiel: S(1) = 1, denn genau eine Filiale hat höchstens einen LKW verkauft. Ebenso ist S(3) = 1, denn es hat auch eine Filiale höchstens drei LKWs verkauft. Ebenso S(4,9999) = 1 ..., also
S(a) = 1 für 1 ≤ a < 5.
  • Zum Beispiel:S(5) = 2, also
S(a) = 2 für 5 ≤ a < 8.

usw... schließlich erhalten wir

S(a) = 10 für a ≥ 24.

Tragen wir die ermittelten Funktionswerte in die Grafik ein, sehen wir sofort, dass wir eine Treppenfunktion erhalten.

Die absolute Summenfunktion S(a) ist die Zahl der Beobachtungen xi ≤ a . Die relative Summenfunktion gibt stattdessen die Anteile der Beobachtungen an der Urliste an:

Der Informationswert der kumulierten Häufigkeit S(n) in der Grafik erschließt sich Ungeübten eher weniger. Aber man kann anhand der Grafik sofort Aussagen über die Verteilung machen. Man sieht beispielsweise sofort, daß z.B. 7 Werte kleiner als 14 sind, es haben also 70% der Filialen höchstens 14 LKWs verkauft.