Benutzerin:Gabriele Hornsteiner/Explo-Baustelle

Wir wollen uns nun ein wenig mit einer etwas "ungezwungeneren" Art der Datenbetrachtung befassen, der explorativen Datenanalyse (EDA). Sie wurde in der 80er Jahren entwickelt. Man hatte erkannt, dass viele herkömmliche Schätzverfahren, um optimale Ergebnisse zu liefern, normalverteilte Daten benötigten und keine Ausreißer zuließen.

Die EDA besteht aus einfachen Analyseverfahren, die von der Verteilung des Merkmals nicht beeinflusst werden (robust) und resistent gegenüber Ausreißern sind. Zudem können die Verfahren meistens schnell und von Hand durchgeführt werden.

Das Stamm-Blätter-Diagramm (stem-and-leaf display) ist ein Verfahren, mit dem man schnell von Hand Daten sortieren und deren Verteilung grafisch darstellen kann. Die höherwertigen Stellen der Daten bauen den Stamm auf, und von diesem Stamm gehen Zweige aus, an dem die geringwertigen Stellen, die Blätter sitzen.

Wir werden nun ein Stamm-Blätter-Diagramm erstellen. Als Beispiel dienen uns die Daten über begangene Morde eines Jahres in den USA-Bundesstaaten, wie sie unten aufgeführt sind.

Bundesstaat	Morde
ALABAMA	6,6
ALASKA	6
ARIZONA	7,9
ARKANSAS	6,4
CALIFORNIA	6,8
COLORADO	3,9
CONNECTICUT	3
DELAWARE	2,9
DISTRICT OF COLUMBIA1	44,2
FLORIDA	5,4
GEORGIA	7,6
HAWAII	1,7
IDAHO	1,8
ILLINOIS2	7,1
INDIANA	5,5
IOWA	1,6
KANSAS	4,5
KENTUCKY2	4,6

Bundesstaat	Morde
LOUISIANA	13
MAINE	1,2
MARYLAND	9,5
MASSACHUSETTS	2,2
MICHIGAN	6,1
MINNESOTA	2,5
MISSISSIPPI	9,3
MISSOURI	5
MONTANA	3,3
NEBRASKA	3,2
NEVADA	8,8
NEW HAMPSHIRE	1,4
NEW JERSEY	4,7
NEW MEXICO	6
NEW YORK	4,9
NORTH CAROLINA	6,1
NORTH DAKOTA	1,9
OHIO	4,6

Bundesstaat	Morde
OKLAHOMA	5,9
OREGON	1,9
PENNSYLVANIA	5,3
PUERTO RICO	20,1
RHODE ISLAND	2,3
SOUTH CAROLINA	7,2
SOUTH DAKOTA	1,3
TENNESSEE	6,8
TEXAS	6,4
UTAH	2,5
VERMONT	2,3
VIRGINIA	5,6
WASHINGTON	3
WEST VIRGINIA	3,5
WISCONSIN	3,3
WYOMING	2,8

Ein Blick auf die Zahlen zeigt uns, dass sich die Zahlen im Wesentlichen zwischen 1 und 13 bewegen. Diese höherrangigen Stellen tragen wir links als Stamm ab und fügen einen Trennstrich bei. Nun hängen wir die Blätter dran. Wir arbeiten uns von oben nach unten durch.

Der erste Wert ist 6,6. Wir hängen an die 6 eine 6:	Es folgt 6,0. Wir hängen an die 6 eine 0.	Es folgt 7,9. Wir hängen an die 7 eine 9.
1 \| 2 \| 3 \| 4 \| 5 \| 6 \|6 7 \| 8 \| 9 \| 10 \| 11 \| 12 \| 13 \| 14 \|	1 \| 2 \| 3 \| 4 \| 5 \| 6 \|60 7 \| 8 \| 9 \| 10 \| 11 \| 12 \| 13 \| 14 \|	1 \| 2 \| 3 \| 4 \| 5 \| 6 \|60 7 \|9 8 \| 9 \| 10 \| 11 \| 12 \| 13 \| 14 \|
Wir machen weiter mit 6,4, 6,8, 3,9, 3, 2,9	Wir kommen zu dem Wert 44,2. Es macht nun wenig Sinn, lauter Stemwerte bis 44 aufzuführen. Dieser Wert ist, verglichen mit den anderen Daten, eindeutig ein Ausreißer. Er wird weiter unten als HI (für high), also als sehr hoher Wert einzeln aufgeführt.	Wir arbeiten uns bis unten durch. Es tritt noch ein zweiter Ausreißer auf: 20,1. Schließlich erhalten wir als erste Rohfassung
1 \| 2 \|9 3 \|90 4 \| 5 \| 6 \|6048 7 \|9 8 \| 9 \| 10 \| 11 \| 12 \| 13 \| 14 \|	1 \| 2 \|9 3 \|90 4 \| 5 \| 6 \|6048 7 \|9 8 \| 9 \| 10 \| 11 \| 12 \| 13 \| 14 \| HI 44,2	1 \|78624993 2 \|9253538 3 \|9032053 4 \|56796 5 \|450936 6 \|604810184 7 \|9612 8 \|8 9 \|53 10 \| 11 \| 12 \| 13 \|0 14 \| HI 20,1 44,2

Wir haben nun das Stamm-Blätter-Diagramm einigermaßen erstellt. Wir können schon die Verteilung der Daten erkennen. Wenn wir das Diagramm um 90° kippen, haben wir quasi ein Histogramm vor uns mit der Intervallbreite 1. Wir sehen deutlich, dass die Verteilung rechtschief ist, die Beobachtungen dünnen hier nach unten aus. Für die Fertigstellung wollen wir noch die Werte in den Zeilen ordnen. Dann benötigen wir noch die Zahl der Beobachtungen, die Einheit eines Blattes (leaf unit) und die Tiefen. Bis auf die Tiefen können wir das schnell erledigen:

n=52, leaf unit=0,1

 
 1 |23467899
 2 |2335589
 3 |0023359
 4 |56679
 5 |034569
 6 |001144688
 7 |1269
 8 |8
 9 |35
10 |
11 |
12 |
13 |0
14 |
 
    HI 20,1 44,2

Bundesstaat	Morde	Tiefe
MAINE	1,2	1
SOUTH DAKOTA	1,3	2
NEW HAMPSHIRE	1,4	3
IOWA	1,6	4
HAWAII	1,7	5
IDAHO	1,8	6
NORTH DAKOTA	1,9	7
OREGON	1,9	8
MASSACHUSETTS	2,2	9
RHODE ISLAND	2,3	10
VERMONT	2,3	11
MINNESOTA	2,5	12
UTAH	2,5	13
WYOMING	2,8	14
DELAWARE	2,9	15
CONNECTICUT	3	16
WASHINGTON	3	17
NEBRASKA	3,2	18
MONTANA	3,3	19
WISCONSIN	3,3	20
WEST VIRGINIA	3,5	21
COLORADO	3,9	22
KANSAS	4,5	23
KENTUCKY2	4,6	24
OHIO	4,6	25
NEW JERSEY	4,7	26
NEW YORK	4,9	26
MISSOURI	5	25
PENNSYLVANIA	5,3	24
FLORIDA	5,4	23
INDIANA	5,5	22
VIRGINIA	5,6	21
OKLAHOMA	5,9	20
ALASKA	6	19
NEW MEXICO	6	18
MICHIGAN	6,1	17
NORTH CAROLINA	6,1	16
ARKANSAS	6,4	15
TEXAS	6,4	14
ALABAMA	6,6	13
CALIFORNIA	6,8	12
TENNESSEE	6,8	11
ILLINOIS2	7,1	10
SOUTH CAROLINA	7,2	9
GEORGIA	7,6	8
ARIZONA	7,9	7
NEVADA	8,8	6
MISSISSIPPI	9,3	5
MARYLAND	9,5	4
LOUISIANA	13	3
PUERTO RICO	20,1	2
DISTRICT OF COLUMBIA1	44,2	1

Die Tiefen (depths) sind die Rangzahlen der nach Größe geordneten Datenwerte, aber zur Hälfte von unten aufsteigend und zur Hälfte von oben absteigend. In der Mitte der Daten treffen sich die Tiefen.

In der rechten Tabelle sind die Mordraten der Größe nach geordnet aufgeführt. Daneben sind die Tiefen angegeben. So haben die beiden äußersten Werte die Tiefe 1, die nächsten nach innen folgenden die Tiefe 2 usw. In der Mitte treffen sich die Tiefen bei zweimal 26. Man sagt also, der Median hat die Tiefe 26,5, denn er fällt zwischen den 26. und 27. Wert.

Wir werden die Tiefen der Blätter angeben.

Die Tiefe beginnt bei den kleinsten Werten: Die Tiefe einer Zeile des Stammes wird durch das äußerste Blatt dieser Zeile angegeben.
Die Tiefe beginnt bei den größsten Werten: Die Tiefe einer Zeile des Stammes wird durch das innerste Blatt dieser Zeile angegeben.
In der Zeile, wo untere und obere Tiefen zusammen treffen, gibt man die Zahl der Blätter dieser Zeile an.

Wir sehen nun, dass die Tiefen sich in der Zeile 4 treffen. Die beiden mittleren Werte der Tiefe 26 betragen 4,7 und 4,9. Der Median beträgt also 0,5*(4,7 + 4,9) = 4,8.

n=52, leaf unit=0,1
 
 depth
    8    1 |23467899
   15    2 |2335589
   22    3 |0023359
  (5)    4 |56679
   25    5 |034569
   19    6 |001144688
   10    7 |1269
    6    8 |8
    5    9 |35
        10 |
        11 |
        12 |
    3   13 |0
        14 |
 
    2   HI 20,1 44,2

Quantile

Mit Hilfe von Quantilen können wir die Verteilung eines Merkmals beschreiben. Wir haben als spezielles Quantil schon den Median einer Stichproben kennengelernt. Er trennt die 50% kleinsten Werte in der Stichprobe von den 50% größten.

Mediane gibt es aber auch bei Zufallsvariablen. Stellt man sich die Dichtefunktion als Grafik vor, teilt der Median die Fläche der Dichtefunktion in zwei gleiche Hälften.

Bäckerbeispiel

Wir haben hier die (zugegebenermaßen sehr gekünstelte) Dichtefunktion der Zahl von täglich verkauften Broten in einer Bäckerei:

f(x)={\frac {x}{18}}\quad f{\ddot {u}}r\quad 0\leq x\leq 6.

Der x-Wert, der die Dichtefunktion in zwei gleiche Flächen teilt, ist 4,24. Wir nennen diesen Wert das 50%-Quantil: x(0,5).

Man könnte also sagen: $P(X\leq 4,24)=0,5$ .

Wir sehen, dass der Erwartungswert von X mit 3 kleiner als der Median ist.

Ebenso gibt es das 90%-Quantil: Hier sind links 90% und rechts 10 %. Es ist also x(0,9)= 5,69, bzw. $P(X\leq 5,69)=0,9$ .

Es gibt hier spezielle Quantile:

Die Quartile teilen die Fläche in Viertel. Wir brauchen hier drei Quantile: Das erste Quartil, das zweite, das identisch mit dem Median ist, und das dritte.
Die Dezentile teilen die Fläche in gleiche Zehntel.
Die Perzentile teilen die Fläche in gleiche Hundertstel.

Die Quantile geben beispielsweise Auskunft, wie sehr eine Verteilung auseinandergezogen ist und ob sie symmetrisch oder schief ist.

beispiele

Wenn wir also in der Stichprobe die Äquivalente zu den Quantilen ermitteln, können wir Aussagen zur Verteilung treffen. In der explorativen Datenanalyse werden allerdings keine Stichprobenquantile ermittelt, sondern eine vereinfachte Form. Sie werden Letter Values genannt. Wir verwenden für die Letter Values die Tiefen. In unserem Beispiel war die Tiefe für den Median 26,5, d.h. er liegt zwischen dem 26. und 27. Wert. Es ist also d(z) = 26,5, wobei d die Tiefe bezeichnet.

Schauen wir uns weitere Aufteilungen der Stichprobenwerte an. In der explorativen Datenanalyse werden allerdings

Wir wollen nun die Stichprobe weiter unterteilen, indem wir die bei Hälften wieder halbieren. Wir erhalten jetzt Viertel. Da sich die Quartile bei Stichproben eine Idee anders berechnen, nennen wir diese Werte Viertel, auf Englisch Fourth. Es gibt eine unteres Viertel, lower fourth, kurz Fl und ein oberes Viertel, upper fourth, kurz Fu. Wir ermitteln die Tiefe eines Fourth: Ein Fourth liegt dann zwischen dem 13. und 14. Wert, hat also die Tiefe d(F) = 13,5. Das gilt natürlich für beide Fourths. Es sind dann FL = .. und FU = ....

Allgemein erhalten wir d(F)= [d(z)]+1/2.

Wir halbieren weiter und erhalten die Achtel, Eighths. Es gibt wieder EL und Eu. Die Tiefen sind die Hälften der äußeren Datenwerte, die durch die Fourths abgetrennt werden. In unserem Beispiel ist das genau der 7. Wert. Also ist d(E)=7.

Es ist wieder d(E)=[d(F)]+1/2

Wir erhalten ...

Es folgen Sechzehntel (Sixteenths), Zweiunddreißigstel etc. Sie werden mit D, C, B und A bezeichnet. Soll die Aufteilung noch feiner sein, machen wir mit Z, Y, ... weiter. Sie werden alle nach dem selben Prinzip wie oben ermittelt. Man nennt diese Kennwerte Letter Values, weil sie mit den Buchstaben z, F, E, ... gekennzeichnet werden. Wie fein die Aufteilung der Daten gemacht wird, hängt vom Zweck der Analyse ab.