Mathematik: Statistik: Korrelationsanalyse

Aus Wikibooks
Wechseln zu: Navigation, Suche

Korrelation zweier Merkmale

Für die Untersuchung der Beziehung zwischen mehreren Variablen muß grundsätzlich wieder nach Skalierung dieser Variablen unterschieden werden. Die Kovarianz bzw. der Korrelationskoeffizient für zwei Zufallsvariablen einer Grundgesamtheit sind uns bereits bekannt. Analog dazu gibt es in der deskriptiven Statistik die (Stichproben)-Kovarianz bzw. den (Stichproben)-Korrelationskoeffizienten.

Korrelationskoeffizient nach Bravais-Pearson

Es seien zwei Merkmale x und y zu beobachten. Bei einer Stichprobe im Umfang von n ergeben sich n viele Wertepaare (xi;yi) (i = 1, ..., n).

Beispiel

Es soll untersucht werden, ob das Bevölkerungswachstum eines Landes mit der Fruchtbarkeitsrate (durchschnittliche Zahl der Geburten einer gebärfähigen Frau) zusammenhängt. Es wurden acht Länder zufällig ausgewählt und wir erhalten die Daten

Land

Bevölkerungs-
wachstum
x

Fruchtbarkeits-
rate
y

Ägypten

1,8

3

Türkei

1,1

2

Vereinigte Arabische Emirate

1,6

3

Jamaika

0,7

2

Mauretanien

2,9

5

Island

1

1,8

Tadschikistan

2,1

4,1

Gabun

2,4

4,7


Um sich einen Eindruck vom Zusammenhang der Daten zu verschaffen, tragen wir sie in einem Streudiagramm ab.

Streudiagramm zwischen Bevölkerungswachstum und Fruchtbarkeitsrate für 8 ausgewählte Länder

Man sieht hier schon ohne Analyse, dass offensichtlich mit steigender Fertilität auch das Bevölkerungswachstum zunimmt. Die gestreckte Punktwolke ist fast eine steigende Gerade, also besteht zwischen Fertilität und Bevölkerungswachstum ein annähernd linearer Zusammenhang. Die Merkmale sind offensichtlich stetig. Für metrisch skalierte Merkmale stellt der Korrelationskoeffizient rxy oder kurz r nach Bravais-Pearson ein Maß für die lineare Abhängigkeit zweier statistischer Variablen dar:


r = 
\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\cdot\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}},

wobei x1 , x2 , ..., xn und y1 , y2 , ..., yn die Messwerte der beiden Merkmale und 
\bar{x} = \frac{1}{n}\cdot\sum_{i=1}^{n} x_{i}
das arithmetische Mittel des Merkmals x sind, y entsprechend.

Analog zu oben kann auch hier wieder der Verschiebungssatz angewendet werden:

 r = 
\frac { \sum_{i=1}^{n} x_i \cdot y_i - n \cdot \bar{x} \cdot \bar{y} }
{\sqrt{(\sum_{i=1}^{n} x_i^2 - n \cdot (\bar{x})^2) \cdot (\sum_{i=1}^{n} y_i^2 - n \cdot (\bar{y})^2)}}

Es gilt: Je näher |r| bei 0 ist, desto schwächer ist der „lineare Zusammenhang“, d.h. die Korrelation. Man sieht an den folgenden Streudiagrammen, dass bei einem Korrelationskoeffizienten von 0,9 das Diagramm stark einer Geraden ähnelt. Je kleiner |r| wird, desto verwaschener wird die Gerade bis hin zur strukturlosen Punktwolke. Ist der Korrelationskoeffizient kleiner als Null, hat die Punktwolke eine fallende Tendenz.

r ≈ 0,9
r ≈ 0,7
r ≈ 0,2
r ≈ -0,9
Die Merkmale sind stochastisch unabhängig
r = 1; y = a + bx

In der Grundgesamtheit ist bei stochastisch unabhängigen Zufallvariablen die Kovarianz und damit der Korrelationskoeffizient gleich Null. Bei einer Stichprobe stetiger Merkmale wird man aber so gut wie niemals einen Korrelationskoeffizienten erhalten, der genau Null ist. In unserem Beispiel mit den stochastisch unabhängigen Merkmalen wurden 30 Zufallszahlen zweier stochastisch unabhängiger Variablen erzeugt. Der errechnete Stichproben-Korrelationskoeffizient ergab jedoch -0,272. Die Frage ist nun, wie groß muss der errechnete Korrelationskoeffizient mindestens sein, damit man von einer vorhandenen Korrelation ausgehen kann? Hier kann man den Korrelationskoeffizienten statistisch testen, um nachzuprüfen, ob er groß genug ist.


Beispiel mit zentrierten Merkmalswerten

Wir wollen nun den Korrelationskoeffizienten des obigen Beispiels mit der Formel


r = 
\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\cdot\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

ermitteln. Am besten ordnet man die Daten für die Berechnung in einer Tabelle an (siehe unten). Wir benötigen als Erstes den Mittelwert x:

\bar x = \frac{1}{n} \sum_{i=1}^n x_i = \frac{1}{8} \cdot 13{,}6 = 1{,}7 \; ,

entsprechend erhalten wir für y

\bar y = \frac{1}{8} \cdot 25{,}6 = 3{,}2 \; .

Wir wollen nun zuerst die Elemente x_i- \overline{x} bestimmen, wir nennen diese zentrierten Werte von x hier x*:

x1* = x1 - x = 1,8 - 1,7 = 0,1
x2* = x2 - x = 1,1 - 1,7 = -0,6
...

Wir können nun die Formel von oben etwas kürzer schreiben als


r = 
\frac{\sum_{i=1}^{n} x_i^* \cdot y_i^*}{\sqrt{\sum_{i=1}^{n} x_i^{*2}} \cdot \sqrt{\sum_{i=1}^{n} y_i^{*2}}}

Setzen wir die entsprechenden Spaltensummen der Tabelle ein, ergibt sich


r = 
\frac{6{,}47}{\sqrt{3{,}96\cdot 11{,}22}} = 0{,}9706 \;.

Der Korrelationskoeffizient beträgt also 0,9706. x und y sind hochkorreliert: Wenn die Fruchtbarkeitsrate groß ist, wächst die Bevölkerung stark.

 

BevW

FrR

x* = x - x

y* = y - y

 

 

 

i

x

y

x*

y*

x*y*

x*2

y*2

1

1,8

3

0,1

-0,2

-0,02

0,01

0,04

2

1,1

2

-0,6

-1,2

0,72

0,36

1,44

3

1,6

3

-0,1

-0,2

0,02

0,01

0,04

4

0,7

2

-1

-1,2

1,2

1

1,44

5

2,9

5

1,2

1,8

2,16

1,44

3,24

6

1

1,8

-0,7

-1,4

0,98

0,49

1,96

7

2,1

4,1

0,4

0,9

0,36

0,16

0,81

8

2,4

4,7

0,7

1,5

1,05

0,49

2,25

Σ

13,6

25,6

0

0

6,47

3,96

11,22


Beispiel mit Verschiebungssatz

Wir berechnen Korrelationskoeffizienten mit Hilfe des Verschiebungssatzes:

 r = 
\frac {49{,}99 - 8 \cdot 1{,}7 \cdot 3{,}2 }
{\sqrt{(27{,}08 - 8 \cdot 1{,}7^2) \cdot (93{,}14  - 8 \cdot 3{,}2^2)}}=0{,}9706

 

BevW

FrR

 

 

 

i

x

y

xy

x2

y2

1

1,8

3

5,4

3,24

9

2

1,1

2

2,2

1,21

4

3

1,6

3

4,8

2,56

9

4

0,7

2

1,4

0,49

4

5

2,9

5

14,5

8,41

25

6

1

1,8

1,8

1

3,24

7

2,1

4,1

8,61

4,41

16,81

8

2,4

4,7

11,28

5,76

22,09

Σ

13,6

25,6

49,99

27,08

93,14


Bemerkungen

  • Der Korrelationskoeffizient nach Bravais-Pearson reagiert stark auf Ausreißer in den Beobachtungen. Daher sollten die vorliegenden Daten idealerweise normalverteilten Merkmalen entstammen.
  • Aufgrund der Durchschnittsbildung ist er für ordinalskalierte Merkmale nicht zulässig.
  • In der praktischen Anwendung werden bei Verwendung des Verschiebungssatzes die Produkte häufig sehr groß. Um Rundungsfehler zu vermeiden, zentriert man hier vor Berechnung des Korrelationskoeffizienten die Datenwerte zu xi* und yi* wie oben gezeigt.

Rangkorrelationskoeffizient nach Spearman

Für Variablen, die stark von der Normalverteilung abweichen, und auch ordinalskalierte Variablen, eignet sich der Rangkorrelationskoeffizient nach Spearman-Pearson. Hier werden die einzelnen Beobachtungen von x bzw. y der Größe nach geordnet. Jedem Wert wird seine Rangzahl zugewiesen. Es entstehen so n Paare mit Rangzahlen rg(xi) und rg(yi). Aus diesen Rängen wird der Korrelationskoeffizent nach Bravais-Pearson errechnet. Man erhält so den Korrelationskoeffizenten nach Spearman-Pearson:


r_{SP} = \frac{\sum_{i}(rg(x_i)-\overline{rg(x)})(rg(y_i)-\overline{rg(y)})} {\sqrt{\sum_{i}(rg(x_i)-\overline{rg(x)}) ^2}\sqrt{\sum_{i}(rg(y_i)-\overline{rg(y)})^2}}
.

Wenn alle Ränge verschieden sind, kann man die obige Form zu


r_{SP} = 1 - \frac{6 \sum_{i} d_i^2} { n \cdot (n^2-1)} ,

umformen mit \ d_i = rg(x_i)-rg(y_i).

Liegen mehrere gleiche Merkmalswerte vor, handelt es sich um Bindungen. Die untere der beiden Formeln ist eigentlich nur korrekt anwendbar, wenn keine Bindungen vorliegen. Meistens kann man jedoch zur Vereinfachung die Formel näherungsweise verwenden. Zur konkreten Berechnung von Bindungen soll das folgende Beispiel verwendet werden.


Beispiel: Evaluation einer Vorlesung

Es wurde eine Statistikvorlesung evaluiert. Die gesamten Daten sind unter Evaluation verfügbar. Es wurden hier 10 Studierende zufällig ausgewählt. Wir interessieren uns für die Frage, ob möglicherweise die Zufriedenheit der Leute mit der Vorlesung davon abhängt, ob die Vorlesung verständlich war. Es ergaben sich die Daten

Stoff
verständlich

Note für
Vorlesung

x

y

2

1

4

4

2

2

3

3

4

3

3

2

3

2

4

3

3

3

3

3

Es werden nun die Ränge ermittelt. Da mehrere Merkmalswerte gleich sind, liegen Bindungen vor, d.h. gleiche Werte bekommen gleiche Rangzahlen. Es gibt verschiedene Methoden, gleiche Rangzahlen zuzuweisen. Meistens werden mittlere Rangzahlen verwendet. Wir wollen für x die Rangzahlen ermitteln. Dazu ordnen wir die x-Werte der Größe nach und numerieren sie durch:

x
aufsteigend
geordnet

Laufende
Nummer

mittlerer
Rang

Rangzahl

2

1

\underset{\text { } }{\overset{\text{ } }{\frac{1+2}{2} } }

1,5

2

2

1,5

3

3

\underset{\text { } }{\overset{\text{ } }{\frac{3+4+5+6+7}{5} } }

5

3

4

5

3

5

5

3

6

5

3

7

5

4

8

\underset{\text { } }{\overset{\text{ } }{\frac{8+9+10}{3} } }

9

4

9

9

4

10

9


Für die Ränge von y verfahren wir entsprechend, wie die unten folgende Tabelle zeigt. Nun können wir den Korrelationskoeffizienten nach Spearman-Pearson berechnen:


\begin{array}{ccl}
r_{SP} &=& \frac{\sum_{i}(rg(x_i)-\overline{rg(x)})(rg(y_i)-\overline{rg(y)})} {\sqrt{\sum_{i}(rg(x_i)-\overline{rg(x)}) ^2}\sqrt{\sum_{i}(rg(y_i)-\overline{rg(y)})^2}}\\
&=&  \overset{\text{ } }{\frac{54{,}5} {\sqrt{70} \cdot \sqrt{70{,}5}}} = 0{,}7758 \;,
\end{array}

wobei sich für \overline{rg(x)} = \frac{1}{10} \cdot 55 = 5{,}5 ergibt, für rg(y) ebenfalls. Es scheint zwischen dem Verstehen des Statistikstoffs und der Gesamtzufriedenheit ein deutlich positiver Zusammenhang zu bestehen: Je besser der Stoff verstanden wurde, desto besser fiel tendenziell auch die Note aus.


x

y

rg(x)

rg(y)

rg(x)* =
rg(x)-rg(x)

2

1

1,5

1

-4

4

4

9

10

3,5

2

2

1,5

3

-4

3

3

5

7

-0,5

4

3

9

7

3,5

3

2

5

3

-0,5

3

2

5

3

-0,5

4

3

9

7

3,5

3

3

5

7

-0,5

3

3

5

7

-0,5

 

 

55

55

0

x

y

rg(y)* =
rg(y)-rg(y)

rg(x)*rg(y)*

rg(x)*2

rg(y)*2

2

1

-4,5

18

16

20,25

4

4

4,5

15,75

12,25

20,25

2

2

-2,5

10

16

6,25

3

3

1,5

-0,75

0,25

2,25

4

3

1,5

5,25

12,25

2,25

3

2

-2,5

1,25

0,25

6,25

3

2

-2,5

1,25

0,25

6,25

4

3

1,5

5,25

12,25

2,25

3

3

1,5

-0,75

0,25

2,25

3

3

1,5

-0,75

0,25

2,25

 

 

0

54,5

70

70,5


Wir werden nun den Korrelationskoeffizienten zum Vergleich mit der vereinfachten Formel ermitteln:


r_{SP} = 1 - \frac{6 \sum_{i} d_i^2} {( n \cdot (n^2-1))} = 1 - \frac{6 \cdot 31{,}5} { 10 \cdot (100 - 1)} = 0{,}8091
.

Dieser Wert weicht etwas vom vorhergehenden ab.


x

y

rg(x)

rg(y)

di=
rg(x)-rg(y)

di2

2

1

1,5

1

0,5

0,25

4

4

9

10

-1

1

2

2

1,5

3

-1,5

2,25

3

3

5

7

-2

4

4

3

9

7

2

4

3

2

5

3

2

4

3

2

5

3

2

4

4

3

9

7

2

4

3

3

5

7

-2

4

3

3

5

7

-2

4

 

 

 

 

 

31,5

Bemerkungen

  • Wie beim Korrelationskoeffizienten nach Bravais-Pearson kann auch hier der Verschiebungssatz verwendet werden.
  • Wird für die Berechnung des Korrelationskoeffizienten der Computer eingesetzt, sollte die vereinfachte Formel nicht verwendet werden, denn sie soll lediglich bei der Berechnung von Hand die Arbeit erleichtern - es sei denn, alle Rangzahlen sind verschieden.


↓Regressionsanalyse
↑Analyse mehrerer Merkmale
↑↑Inhaltsverzeichnis Statistik