Statistik: Summenkurve eines metrischen Merkmals mit vielen verschiedenen Ausprägungen
Bei Beobachtungen, die man zweckmäßigerweise klassiert zusammenfasst, ist eine Summenfunktion aus der Urliste schwierig zu erstellen und auch unhandlich.
Da hier das Merkmal als stetig angesehen wird, nähert man die grafische Darstellung der Verteilung durch ein Kurve an. Dabei wird folgendermaßen vorgegangen:
Um die absolute Summenfunktion zu erstellen, berechnet man für jede Klasse j die kumulierte Häufigkeit Sj. Dann trägt man die Wertepaare (xoj;Sj), also die Klassenobergrenze und Summenhäufigkeit in ein Diagramm ein und verbindet die Punkte geradlinig. Es ist der erste Punkt (xu1;0). Ab (xom;n) verläuft die Summenkurve horizontal.
PKW-Beispiel
Dazu fassen wir die benötigten Werte am besten wieder in einer Zahlentabelle zusammen: Wir benötigen die Klassenobergrenzen xoj und die Summenhäufigkeiten Sj. Die Summenhäufigkeiten sind die kumulierten Häufigkeiten
etwa S1 = 5, S2 = 5 + 6 =11, S3 = 5 + 6 + 6 = 17 ...
Klasse |
Merkmals- |
Absolute Häufigkeit |
Klassen- |
Absolute Summenhäufigkeit |
---|---|---|---|---|
j |
x |
nj |
xoj |
Sj |
1 |
0 - bis 200 |
5 |
200 |
5 |
2 |
ü. 200 bis 300 |
6 |
300 |
11 |
3 |
ü. 300 bis 400 |
6 |
400 |
17 |
4 |
ü. 400 bis 500 |
9 |
500 |
26 |
5 |
ü. 500 bis 700 |
6 |
700 |
32 |
Σ |
32 |
Je gleichmäßiger die einzelnen Beobachtungen über die Klassen verteilt sind, desto besser passt sich die Summenkurve an die Summenfunktion der einzelnen Beobachtungen an.
In der Grafik ist die Summenkurve für das PKW-Beispiel angegeben. Zum Vergleich wurde die Summenfunktion der Urliste mit eingetragen, wobei aus Übersichtlichkeitsgründen nur bei den ersten Werten die Horizontale gezeigt wird. Man sieht, dass im Intervall 200 - 300 die Kurve die tatsächlichen Beobachtungen überschätzt, im Intervall 600 - 700 liegt die Kurve unter der tatsächlichen Summenfunktion.
Die Summenfunktion ist eine empirische Beschreibung der Verteilung des Merkmals in der Grundgesamtheit. Wie andere grafisch dargestellte Verteilungen ist auch sie vom optischen Informtionsgehalt her eher wenig instruktiv. Man kann aber Verteilungsaussagen grafisch ermitteln, z.B.
Bei der relativen Summenkurve wird statt der absoluten Häufigkeit Sj die relative Summenhäufigkeit
verwendet. Die Form der Summenkurve bleibt erhalten.