Statistik: Häufigkeitsverteilung eines metrischen Merkmals mit wenigen, verschiedenen Ausprägungen

Urliste

Beispiel

n = 10 „Pfundschalen“ Erdbeeren wurden nachgewogen. Es ergab sich durch Nachwiegen die Urliste

x₁	x₂	x₃	x₄	x₅	x₆	x₇	x₈	x₉	x₁₀
480	500	510	450	400	490	505	510	480	480

mit dem Merkmal x: Gewicht eines Schälchens (g). Die Werte wurden in der Reihenfolge der Erhebung, also ungeordnet, als Urliste erfasst. Diese Art der Darstellung ist unübersichtlich und daher nur für wenige Beobachtungen geeignet.

Urlisten können auch mehrere, unterschiedlich skalierte Merkmale enthalten. Beispielsweise ist die Tabelle mit den Hunden eine Urliste.

Häufigkeitsverteilung

Liegt ein metrisch skaliertes Merkmal oder ein ordinalskaliertes Merkmal mit vielen Ausprägungen vor, kann man zunächst einmal die Urliste der Größe nach ordnen, um einen gewissen Eindruck zu erhalten.

Beispiel

Die Indizes in den eckigen Klammern bedeuten, dass die Beobachtungen der Größe nach geordnet wurden.

x_[1]	x_[2]	x_[3]	x_[4]	x_[5]	x_[6]	x_[7]	x_[8]	x_[9]	x_[10]
400	450	480	480	480	490	500	505	510	510

Man erkennt nun, dass über die Hälfte der Schälchen untergewichtig waren.

Allerdings ist das Sortieren mühsam, fehleranfällig und doch nicht sehr informativ. Mit dem Zweig-Blätter-Diagramm (stem-and-leaf display) kann man jedoch sowohl metrische Beobachtungen relativ leicht sortieren als auch eine erste Häufigkeitsverteilung erzeugen.

Zweig-Blätter-Diagramm

Beispiel:

Für das Jahr 2003 liegt das reale Wachstum des Bruttoinlandsprodukts für 38 europäische Staaten vor (© Statistisches Bundesamt, Wiesbaden 2003 [1])

 4,7  1,1  3,9 -0,1  4,7  1,8  0,2  4,8  1,4  1,9  0,3  5,2  7,4  9,0  2,6  0,4  0,7  7,2 -0,8
 0,3  0,7  3,7 -1,3  4,9  7,3  1,6 -0,5  4,0  4,2  2,3  2,4  2,9  5,8  4,8  2,9  2,1  4,7  2,0

Wir wollen die Daten ordnen und einen Eindruck von der Häufigkeitsverteilung gewinnen. Dazu werden wir jetzt ein Zweig-Blätter-Diagramm oder, für Anglophile, ein Stem-and-Leaf-Display erzeugen.

Zuerst wird der Zweig gemacht - aus den Einsern:		Dann hängen wir die Blätter an den Zweig, und zwar, indem wir von links nach rechts durch die Daten wandern: Der erste Wert ist 4,7. Das Blatt 7 wird an den Zweig 4 gehängt
${\begin{array}{r\|l}-1&\\-0&\\0&\\1&\\2&\\3&\\4&\\5&\\6&\\7&\\8&\\9&\end{array}}$		${\begin{array}{r\|l}-1&\\-0&\\0&\\1&\\2&\\3&\\4&7\\5&\\6&\\7&\\8&\\9&\end{array}}$
Der zweite Wert ist 1,1, das Blatt 1 wird an die 1 gehängt		Es folgen 3,9 -0,1 4,7 1,8 ...
${\begin{array}{r\|l}-1&\\-0&\\0&\\1&1\\2&\\3&\\4&7\\5&\\6&\\7&\\8&\\9&\\\end{array}}$		${\begin{array}{r\|l}-1&\\-0&1\\0&\\1&18\\2&\\3&9\\4&77\\5&\\6&\\7&\\8&\\9&\\\end{array}}$
Schließlich erhalten wir		Diese Prozedur war schnell erledigt. Wir bekommen schon einen guten Eindruck von der Verteilung der Beobachtungswerte. Kippen wir das Diagramm um 90°, erkennen wir eine Art Säulendiagramm. Außerdem können wir nun die Werte schnell der Größe nach sortieren. Wir erhalten nun unser Stengel-Blätter-Diagramm:
${\begin{array}{r\|l}-1&3\\-0&185\\0&234737\\1&18496\\2&6349910\\3&97\\4&77890287\\5&28\\6&\\7&423\\8&\\9&0\\\end{array}}$		${\begin{array}{r\|l}-1&3\\-0&158\\0&233477\\1&14689\\2&0134699\\3&79\\4&02777889\\5&28\\6&\\7&234\\8&\\9&0\\\end{array}}$

Für unsere Zwecke ist das Stem-and-Leaf-Display jetzt ausreichend. Ein Stem-and-Leaf-Display kann aber auch noch mehr Einzelheiten enthalten. Ist die Zahl der erhobenen Beobachtungen sehr groß, können die Werte in Klassen tabellarisch zusammengefaßt werden. Diese Art der Analyse erfolgt weiter unten.

Summenfunktion

Beispiel

Ein Autohaus hat von seinen n = 10 Filialen die Zahl der verkauften LKWs des letzten Jahres vorliegen. Es folgt die Urliste mit den x_i geordnet:

x_[1]	x_[2]	x_[3]	x_[4]	x_[5]	x_[6]	x_[7]	x_[8]	x_[9]	x_[10]
1	5	8	8	10	10	10	17	22	24

Wir wollen die absolute Summenfunktion S(a) bestimmen. S(a) gibt an, wieviel Beobachtungen x_i ≤ a sind:

Zum Beispiel:

S(17) = 8, also sind 8 Beobachtungen höchstens 17
S(8) = 4, also gibt es 4 Filialen, die höchstens 8 LKWs verkauft haben

Wir leiten nun die Summenfunktion her, von links nach rechts:

Zum Beispiel: S(0,1) = 0, denn keine Filiale hat höchstens 0,1 LKW verkauft. Ebenso ist S(0,9) = 0, usw... also

S(a) = 0 für a < 1.

Zum Beispiel: S(1) = 1, denn genau eine Filiale hat höchstens einen LKW verkauft. Ebenso ist S(3) = 1, denn es hat auch eine Filiale höchstens drei LKWs verkauft. Ebenso S(4,9999) = 1 ..., also

S(a) = 1 für 1 ≤ a < 5.

Zum Beispiel:S(5) = 2, also

S(a) = 2 für 5 ≤ a < 8.

usw... schließlich erhalten wir

S(a) = 10 für a ≥ 24.

Tragen wir die ermittelten Funktionswerte in die Grafik ein, sehen wir sofort, dass wir eine Treppenfunktion erhalten.

Die absolute Summenfunktion S(a) ist die Zahl der Beobachtungen xi ≤ a . Die relative Summenfunktion gibt stattdessen die Anteile der Beobachtungen an der Urliste an:

S^{*}(a)={\frac {S(a)}{n}}

Der Informationswert der kumulierten Häufigkeit S(n) in der Grafik erschließt sich Ungeübten eher weniger. Aber man kann anhand der Grafik sofort Aussagen über die Verteilung machen. Man sieht beispielsweise sofort, daß z.B. 7 Werte kleiner als 14 sind, es haben also 70% der Filialen höchstens 14 LKWs verkauft.

↓ Lageparameter bei wenigen verschiedenen Beobachtungen

↑ Metrisches Merkmal mit wenigen verschiedenen Beobachtungen

↑↑ Inhaltsverzeichnis Statistik