Mathematik: Wahrscheinlichkeitstheorie: DW: K7: Kovarianz und Korrelation

← zurück - zum Inhaltsverzeichnis - weiter →

K7: Kovarianz und Korrelation

Diskrete Wahrscheinlichkeitsrechnung

7.4 Kovarianz und Korrelation

Bei simultanen Verteilungen ist es von großer Bedeutung den Zusammenhang der Zufallsvariablen zu studieren. Dazu brauchen wir ein Maß das den Zusammenhang kennzeichnet. Was wir unter Zusammenhang verstehen, werden wir in einem Beispiel verdeutlichen.

Beispiel 1 (zweimal Würfeln (Fortsetzung))

Die simultane Wahrscheinlichkeitsfunktion p_Z,M von Z und M wird gegeben in der nächste Tabelle.

p_{Z,M}(z,m)=P(Z=z,M=m)

z

2

3

4

5

6

7

8

9

10

11

12

m

P(M=m)

1

1/36

2

2/36

1/36

3/36

3

2/36

1/36

5/36

4

2/36

1/36

7/36

5

2/36

1/36

9/36

6

2/36

1/36

11/36

P(Z=z)

1/36

2/36

3/36

4/36

5/36

6/36

5/36

4/36

3/36

2/36

1/36

36/36

Daraus können wir ablesen dass kleine Werte für M einher gehen mit kleinen Werten für Z. Wenn M=1, kann nur Z=2 vorkommen, und wenn M=2, sind für Z nur die Werte 3 und 4 möglich. Große Werte von M gehen einher mit großen Werten von Z: wenn M=6, kann Z die Werte 7 bis 12 annehmen. Es gibt zwar keine eindeutige Beziehung zwischen M und Z, aber je größer M ist, desto größer sind die Werte die für Z im Betracht kommen.

Weil die Lage der Verteilung unwichtig ist für den Zusammenhang der Zufallsvariablen, betrachten wir alles relativ hinsichtlich des Zentrums der simultane Verteilung. Wir suchen der Zusammenhang zwischen die Abweichungen X–EX und Y–EY der beiden Zufallsvariablen X und Y hinsichtlich ihren Erwartungswerte. Wenn kleine Werte von X–EX überwiegend einher gehen mit kleinen Werten von Y–EY und gleichfalls die große Werte, reden wir von einer positiven Zusammenhang. Das Produkt der Abweichungen, (X–EX)(Y–EY), wird dann überwiegend positiv sein. Gehen kleine Werte der eine Zufallsvariable überwiegend einher mit großen Werten der andere Zufallsvariable, dann reden wir von einer negativen Zusammenhang und wird (X–EX)(Y–EY) überwiegend negativ sein. Die Erwartung E(X–EX)(Y–EY) dieses Produkts, Kovarianz genannt, wird also bei einer positiven Zusammenhang positiv sein, und bei einer negativen Zusammenhang negativ, und charakterisiert damit die Art der Zusammenhang.

Definition 7.4.1

Unter die Kovarianz zweier Zufallsvariablen X und Y, verstehen wir

Cov(X,Y) = E((X–EX)(Y–EY)).

Beispiel 2 (zweimal Würfeln (Fortsetzung))

Wir berechnen die Kovarianz von M und Z.

\mathrm {Cov} (M,Z)=E((M-EM)(Z-EZ))=E((M-{\tfrac {161}{36}})(Z-7))=

=(1-{\tfrac {161}{36}})(2-7){\tfrac {1}{36}}+(2-{\tfrac {161}{36}})(3-7){\tfrac {2}{36}}+...+(6-{\tfrac {161}{36}})(12-7){\tfrac {1}{36}}={\tfrac {105}{36}}=2{\tfrac {11}{12}}

.

Wie wir erwarten ist die Zusammenhang positiv.

Auch für die Berechnung von Cov(X,Y) gibt es ein Verschiebungssatz.

Satz 7.4.1 (Verschiebungssatz)

Für die Kovarianz zweier Zufallsvariablen X und Y gilt:

Cov(X,Y) = E(XY) – EX·EY.

Beispiel 3 (zweimal Würfeln (Fortsetzung))

Wir berechnen die Kovarianz von M und Z mit Anwendung des Verschiebungssatzes. Dazu berechnen wir zuerst:

EMZ=1\times 2\times {\tfrac {1}{36}}+2\times 3\times {\tfrac {2}{36}}+...+6\times 12\times {\tfrac {1}{36}}={\tfrac {1232}{36}}.

Dann folgt:

\mathrm {Cov} (M,Z)=EMZ-EM\cdot EZ={\tfrac {1232}{36}}-{\tfrac {161}{36}}\times 7={\tfrac {105}{36}}

.

Übrigens können wir EMZ auch berechnen mit Hilfe vorheriger Berechnungen:

EMZ=E(E(MZ|M))=E(M\cdot E(Z|M))={\tfrac {1232}{36}}.

Die benötigte Berechnungen stehen in der nächste Tabelle.


$m$	1	2	3	4	5	6	Total

$P(M=m)$	1/36	3/36	5/36	7/36	9/36	11/36	36/36
$\operatorname {E} (Z\|M=m)$	2	10/3	24/5	44/7	70/9	102/11
$m\operatorname {E} (Z\|M=m)P(M=m)$	2/36	20/36	72/36	176/36	350/36	612/36	1232/36	$=\operatorname {E} MZ$

Einige nahe liegende Eigenschaften der Kovarianz zeigen wir im nächsten Satz.

Satz 7.4.2 (Eigenschaften der Kovarianz)

Es seien $X$ und $Y$ zwei Zufallvariablen mit einer simultanen Verteilung, und $X_{1},X_{2}$ und $Y$ gleichfalls Dann gilt:

(a)

\operatorname {Cov} (X,Y)=\operatorname {Cov} (Y,X)

(b)

\operatorname {Cov} (X,X)=\operatorname {Var} (X)

(c)

\operatorname {Cov} (X_{1}+X_{2},Y)=\operatorname {Cov} (X_{1},Y)+\operatorname {Cov} (X_{2},Y)

(d)

\operatorname {Cov} (aX+b,Y)=a\operatorname {Cov} (X,Y)

) für alle

a,b\in \mathbb {R}

(e)

\operatorname {Cov} (X,Y)=0

wenn

X

und

Y

unabhängig sind,

Beweis

Wir beweisen nur e. Wenn $X$ und $Y$ unabhängig sind, ist $\operatorname {E} XY=\operatorname {E} X\cdot \operatorname {E} Y$ . Mit Anwendung des Verschiebungssatzes folgt direkt dass $\operatorname {Cov} (X,Y)=0$ .

Beispiel 4 (zweimal Würfeln (Fortsetzung))

Wir berechnen die Kovarianz von M und X + Y (= Z).

\!\,\mathrm {Cov} (M,X+Y)=\mathrm {Cov} (M,X)+\mathrm {Cov} (M,Y)

.

Nun ist

EMX=E(E(MX|M))=E(M\cdot E(X|M))={\frac {616}{36}}

,

Daraus folgt:

\mathrm {Cov} (M,X)=\mathrm {Cov} (M,Y)=EMX-EM\cdot EX={\tfrac {616}{36}}-{\tfrac {161}{36}}\times {\tfrac {7}{2}}={\tfrac {35}{24}}.

Auch auf diese Weise finden wir:

\!\,\mathrm {Cov} (M,Z)=\mathrm {Cov} (M,X+Y)=2\,\mathrm {Cov} (M,X)={\tfrac {35}{12}}.

Vergleiche dies mit dem Beispiel 2.

Die letzte Aussage des Satzes 2 verdient noch unsere Aufmerksamkeit. Es scheint selbstverständlich zu sein dass Cov(X,Y) = 0, falls X und Y unabhängig sind, und es deshalb keine Zusammenhang gibt. Umgekehrt aber gilt nicht dass wir aus dem Fakt dass Cov(X,Y) = 0, konkludieren dürfen dass X und Y unabhängig sind. Die Kovarianz ist namentlich nur ein Maß für "lineare Zusammenhang" zwischen zwei Zufallsvariablen. Wenn also Cov(X,Y) = 0, können wir nur konkludieren dass es keine lineare Zusammenhang gibt zwischen X und Y. Sie können trotzdem auf eine andere Weise zusammenhängen und doch abhängig sein, wie im nächsten Beispiel gezeigt wird.

Beispiel 5

Es seien X und Y so bestimmt dass P(X=0 und Y=±1) = P(X=±1 und Y=0) = 1/4. Dann ist EXY = EX = EY = 0, weshalb Cov(X,Y) = 0. X und Y sind aber abhängig, denn P(X=1 und Y=1) = 0 ≠ P(X=1)P(Y=1) = 1/16.

Mit Hilfe der Kovarianz können wir einen Ausdruck finden für die Varianz der Summe von n Zufallsvariablen.

Satz 7.4.3

Es seien die n Zufallsvariablen X₁,X₂,...,X_n sind simultan verteilt und σ(X_i) < ∞. Dann ist:

\mathrm {Var} (X_{1}+X_{2}+...+X_{n})=\mathrm {Cov} (\sum X_{i},\sum X_{j})=\sum _{i}\sum _{j}\mathrm {Cov} (X_{i},X_{j})=

=\sum _{i}\mathrm {Var} X_{i}+2\sum _{i\neq j}\mathrm {Cov} (X_{i},X_{j})

.

Insbesondere gilt also für zwei Zufallsvariablen X und Y:

\mathrm {Var} (X+Y)=\mathrm {Var} (X)+\mathrm {Var} (Y)+2\;\mathrm {Cov} (X,Y)

und folglich auch:

\mathrm {Var} (X-Y)=\mathrm {Var} (X)+\mathrm {Var} (Y)-2\;\mathrm {Cov} (X,Y)

Wenn also X und Y unabhängig sind, ist Cov(X,Y) = 0, und gilt:

\mathrm {Var} (X\pm Y)=\mathrm {Var} (X)+\mathrm {Var} (Y)

Die Varianz der Summe und der Differenz ist dann die Summe der Varianzen.

Satz 7.4.4

Wenn die n Zufallsvariablen X₁,X₂,...,X_n paarweise unabhängig oder unabhängig sind, und σ(X_i) < ∞, gilt:

\mathrm {Var} (X_{1}+X_{2}+\ldots +X_{n})=\mathrm {Var} (X_{1})+\mathrm {Var} (X_{2})+\ldots +\mathrm {Var} (X_{n}).

Beispiel 6 (zweimal Würfeln (Fortsetzung))

Wir berechnen die Varianz von Z = X + Y. Weil X und Y unabhängig sind und identisch verteilt, gilt:

\mathrm {Var} (Z)=\mathrm {Var} (X+Y)=\mathrm {Var} (X)+\mathrm {var} (Y)=2\,\mathrm {Var} (X)={\tfrac {210}{36}}=5{\tfrac {5}{6}}

,

wie wir schon vorher berechneten.

Mit den obigen Beziehungen können wir auf einfache Weise die Varianz der Binomialverteilung und der hypergeometrische Verteilung bestimmen.

Beispiel 7 (Varianz der Binomialverteilung)

Es sei X B(n,p)-Verteilt. Betrachte n Bernoulli-Versuchen X_i mit Erfolgswahrscheinlichkeit p, d.h. P(X_i= 1) = 1 – P(X_i= 0) = p. Wir stellen Y = ∑ X_i, dann haben X und Y dieselbe Verteilung und also auch dieselbe Varianz. Wir finden dann:

\mathrm {Var} (X)=\mathrm {Var} (Y)=\mathrm {Var} (\sum X_{i})=\sum \mathrm {Var} (X_{i})=\sum p(1-p)=np(1-p).

Beispiel 8 (Varianz der hypergeometrische Verteilung)

Es sei X hypergeometrisch Verteilt mit Parametern M, N und n. Wir betrachten eine aselekte Stichprobe von Umfang n ohne Zurücklegung aus einer Urne mit M roten und N-M weißen Kugeln. Wir definieren X_i als 1 wenn die i. Ziehung eine rote Kugel aufweist und 0 im Falle einer weißen. Jede der Zufallsvariablen (Xi) ist wieder eine Alternative mit Parameter p = M/N. Nenne wieder:

Y=\sum _{i=1}^{n}X_{i},

dann haben X und Y dieselbe Verteilung und also dieselbe Varianz. Folglich ist:

\mathrm {Var} (X)=\mathrm {Var} (Y)=\mathrm {Var} (\sum X_{i})=\sum \mathrm {Var} (X_{i})+2\,\sum \mathrm {Cov} (X_{i},X_{j})=

\!\;np(1-p)+n(n-1)c.

Darin ist

\!\;c=\mathrm {Cov} (X_{i},X_{j})

für alle i und j, da die simultane Verteilung von X_i und X_j für jede i und j dieselbe ist. Wir können c direkt bestimmen durch:

\,c=\mathrm {Cov} (X_{i},X_{j})=EX_{1}X_{2}-EX_{1}\cdot EX_{2}=P(X_{1}=1,\;X_{2}=1)-p^{2}=

{\frac {M(M-1)}{N(N-1)}}-{\frac {M^{2}}{N^{2}}}=-{\frac {M(N-M)}{(N-1)N^{2}}}=-{\frac {1}{N-1}}p(1-p).

.

Folglich istL

\mathrm {Var} (X)=np(1-p)-{\frac {1}{N-1}}p(1-p)=np(1-p){\frac {N-M}{N-1}}.

Wir können c auch bestimmen damit wir bedenken dass c nicht abhängig ist von der Stichprobeumfang n. Dann ist für n = N, also wenn wir alle Kugeln ziehen:

\!\;\mathrm {Var} (X)=Np(1-p)+N(N-1)c=0.

Falls Cov(X,Y) = 0, nennen wir X und Y unkorreliert. Der Begriff hängt zusammen mit dem im nächsten zu besprechen Begriff Korrelation.

Definition 7.4.2

Wir nennen die Zufallsvariablen X₁,X₂,...,X_n unkorreliert, wenn Cov(X_i, X_j) = 0 für jede zwei X_i und X_j.

Das Vorzeichen der Kovarianz zeigt uns, wie wir gesehen haben, die "Art" der lineare Zusammenhang zwischen zwei Zufallsvariablen. Die Größe der Kovarianz ist ein Maß für die "Stärke" der lineare Zusammenhang, und zwar in dem Sinne, dass je mehr die Zusammenhang eine lineare Beziehung annähert, desto größer, absolut gesehen, der Wert der Kovarianz ist. Dabei müssen wir bemerken dass wir die absolute Größe der Kovarianz betrachten sollen in Beziehung zu der Streuungen. Die Kovarianz E(X-EX)(Y-EY) wird ja nicht nur bestimmt durch die Zusammenhang, aber auch durch die Größe der Abweichungen, also durch die Streuungen in der Verteilungen von X und Y. Wenn ein oder beide Zufallsvariablen in eine andere Skalierung gemessen wird, ändert sich auch die Streuung gemessen durch die Standardabweichung proportional mit dem Skalierungsfaktor und gleichfalls die Kovarianz, wie Satz 2 zeigte. Wir können die Kovarianz also standardisieren damit wir sie dividieren durch die Standardabweichungen der beiden Zufallsvariablen. Diese standardisierte Form nennen wir Korrelationskoeffizient.

Definition 7.4.3

Unter der Korrelationskoeffizient ρ(X,Y) der Zufallsvariablen X und Y verstehen wir

\rho (X,Y)={\frac {\mathrm {Cov} (X,Y)}{\sigma (X)\sigma (Y)}}

,

vorausgesetzt σ(X) und σ(Y) existieren beide.

Beispiel 9 (zweimal Würfeln (Fortsetzung))

Wir berechnen den Korrelationskoeffizienten von M und Z:

\rho (M,Z)={\frac {\mathrm {Cov} (M,Z)}{\sigma (M)\sigma (Z)}}\approx {\frac {2{,}92}{1{,}40\times 2{,}42}}=0{,}86.

M und Z sind also ziemlich stark positiv korreliert; das ist auch verständlich, denn kleine Werte für M gehen einher mit kleinen Werten für Z, während große Werte für M mit großen Werten für Z einhergehen.

Der Korrelationskoeffizient ρ(X,Y) kann nur Werte aufweisen zwischen -1 und 1 (Grenze inklusive). Die Größe ist ein direktes Maß für den linearen Zusammenhang zwischen X und Y.

Im nächsten Satz listen wir einige Eigenschaften auf.

Satz 7.4.5 (Eigenschaften des Korrelationskoeffizienten)

Es seien X und Y simultan verteilt, dann gilt:

(a) ρ(X,Y) = ρ(Y,X)

(b) ρ(aX+b,Y) = sgn(a)·ρ(X,Y), für alle a,b ∈ R, a≠0. (hierin ist sgn(a) = 1 wenn a > 0 und sgn(a) = -1 wenn a < 0);

(c) |ρ(X,Y)| ≤ 1

(d) |ρ(X,Y)| = 1, dann und nur dann wenn X und Y linear zusammenhängen, d.h. wenn P(Y=aX+b) = 1, für bestimmte a≠0 und b. Das Vorzeichen von ρ gleicht dem Vorzeichen von a.

(e) wenn X und Y unabhängig sind, ist ρ(X,Y) = 0.

Beweis

Wir beweisen nur c und d. Sie folgern aus der Beziehung:

0\leq \mathrm {Var} ({\tfrac {X}{\sigma _{X}}}\pm {\tfrac {Y}{\sigma _{Y}}})=2\pm 2\rho (X,Y)

.

Wenn Gleichheit gilt, ist ${\tfrac {X}{\sigma _{X}}}\pm {\tfrac {Y}{\sigma _{Y}}}$ entartet. Wenn also ρ(X,Y) = ±1, ist für eine bestimmte b

P({\tfrac {X}{\sigma _{X}}}\pm {\tfrac {Y}{\sigma _{Y}}}=b)=1

.

Für also fast alle Ergebnisse s (außerhalb einem Ereignis mit Wahrscheinlichkeit 0) hängen X und Y linear zusammen.

Beispiel 10 (Die hypergeometrische Verteilung ((Fortsetzung))

Wir berechnen den Korrelationskoeffizient zweier Variablen:

\rho (X_{1},X_{2})={\frac {\mathrm {Cov} (X_{1},X_{2})}{\sigma (X_{1})\sigma (X_{2})}}={\frac {c}{\mathrm {Var} (X_{1})}}=-{\frac {1}{N-1}}

.

Hieraus ergibt sich, dass X₁ und X₂ negativ zusammenhängen. Das ist auch verständlich, denn wenn die erste Kugel rot ist (X₁= 1), ist die bedingte Wahrscheinlichkeit, dass auch die zweite Kugel rot ist(X₂= 1) kleiner als wenn die erste Kugel weiß ist (X₂= 0). Auch nimmt die Abhängigkeit mit wachsendem N ab, denn mit wachsendem N verliert der Unterschied zwischen Stichproben mit und ohne Zurücklegen an Bedeutung.

Beispiel 11 (Multinomialverteilung ((Fortsetzung))

Wir betrachten wieder drei Zufallvariablen X, Y und Z, und berechnen die Kovarianz von X und Y. Weil X und Y beide binomialverteilt sind mit Parametern n und p₁, beziehungsweise n und p₂, wissen wir schon, dass EX = np₁ und EY = np₂. Wir leiten her:

EXY=\sum _{n_{1}+n_{2}+n_{3}=n}n_{1}n_{2}{\frac {n!}{n_{1}!n_{2}!n_{3}!}}p_{1}^{n_{1}}p_{2}^{n_{2}}p_{3}^{n_{3}}=n(n-1)p_{1}p_{2}

.

Also ist:

\mathrm {Cov} (X,Y)=n(n-1)p_{1}p_{2}-np_{1}np_{2}=-np_{1}p_{2}

.

und

\rho (X,Y)={\frac {-np_{1}p_{2}}{{\sqrt {np_{1}(1-p_{1})}}{\sqrt {np_{2}(1-p_{2})}}}}=-{\sqrt {\frac {p_{1}p_{2}}{(1-p_{1})(1-p_{2})}}}

.