Statistik: Stetige Zufallsvariablen

Beispiel eines Zeitungskiosks

Dichtefunktion

Die Zufallsvariable X: „An einem Tag verkaufte Menge an Tageszeitungen (in 100) eines Zeitungskiosks“ lässt sich beschreiben mit der (in diesem Fall frei erfundenen) Dichtefunktion

f(x)={\begin{cases}{\frac {1}{4}}x-{\frac {3}{2}}&{\mbox{für }}6\leq x\leq 8\\{\frac {5}{2}}-{\frac {1}{4}}x&{\mbox{für }}8<x\leq 10\\0&{\mbox{sonst}}\end{cases}}\ .

Diese Zufallsvariable X ist nun stetig, d.h. sie hat in jedem Intervall a ≤ X ≤ b unendlich viele Ausprägungen.

Eine Analyse der Grafik zeigt, dass diese Dichtefunktion symmetrisch bezüglich 8 ist, was die Berechnung von Wahrscheinlichkeiten sehr erleichtert.

Wir wollen nun die Wahrscheinlichkeit bestimmen, dass an einem Tag höchstens 700 Zeitungen verkauft werden, also P(X ≤ 7). Wenn wir analog zu der diskreten Zufallsvariablen vorgehen, wo wir „die Summe der Stäbchen“ ermittelten, müsste die Wahrscheinlichkeit P(X ≤ a) hier „unendlich viele Stäbchen“, also eine Fläche ergeben.

Wir berechnen die Dreiecksfläche mit Hilfe der Geometrie:

P(X\leq 7)={\mbox{Breite des Dreiecks }}\cdot {\mbox{Höhe des Dreiecks }}\cdot {\frac {1}{2}}

=1\cdot {\frac {1}{4}}\cdot {\frac {1}{2}}={\frac {1}{8}}\ .

Es ist übrigens auch

P(X<7)={\frac {1}{8}}\ ,

denn bei einer stetigen Zufallsvariablen ist P(X = x) = 0, da es als unmöglich angesehen wird, genau einen bestimmten Wert x zu „treffen“. Man betrachtet also bei einer stetigen Zufallsvariablen nur Wahrscheinlichkeiten der Art P(X ≤ x) o.ä.

Es ist P(X ≤ 8) = 0,5, wie man der Grafik sofort entnimmt.

$P(X\geq 9)={\frac {1}{8}}\ ,$ denn wie man sieht, ist die Fläche von P(X ≥ 9) genau gleich der Fläche P(X ≤ 7).

Außerdem ist $P(X\leq 9)=1-P(X\geq 9)={\frac {7}{8}}\ .$

Bestimmen wir die Wahrscheinlichkeit eines Intervalls. Es ergibt

P(8 < X ≤ 9) = P(X ≤ 9) - P(X ≤ 8) = 0,875 - 0,5 = 0,375,

wenn man die Rechenregel für P(a < X ≤ b) anwendet.

Verteilungsfunktion

Man kann Wahrscheinlichkeiten von X auch als Verteilungsfunktion darstellen. Sucht man die Wahrscheinlichkeit P(X ≤ a), muss also das Integral von -∞ bis a berechnet werden:

P(X\leq a)=F(a)=\int _{-\infty }^{a}f(x)dx

Bei unserem Beispiel sind wir mit verschiedenen Bereichen konfrontiert:

1. a < 6

P(X\leq a)=F(a)=\int _{-\infty }^{a}0\,dx=0

2. 6 ≤ a ≤ 8

{\begin{array}{ccl}F(a)&=&\int _{-\infty }^{6}0\,dx+\int _{6}^{a}\left({\frac {1}{4}}x-{\frac {3}{2}}\right)dx\\&=&0+\left[{\frac {x^{2}}{8}}-{\frac {3}{2}}x\right]_{6}^{\overset {\text{ }}{a}}\\&=&{\frac {a^{2}}{8}}-{\frac {3}{2}}a-\left({\frac {6^{2}}{8}}-{\frac {3}{2}}6\right)={\frac {a^{2}}{8}}-{\frac {3}{2}}a+{\frac {9}{2}}\end{array}}

3. 8 < a ≤ 10

{\begin{array}{ccl}F(a)&=&\int _{-\infty }^{6}0\,dx+\int _{6}^{8}\left({\frac {1}{4}}\cdot x-{\frac {3}{2}}\right)dx+\int _{8}^{a}\left({\frac {5}{2}}-{\frac {1}{4}}x\right)dx\\&=&0+\left[{\frac {x^{2}}{8}}-{\frac {3}{2}}\cdot x\right]_{6}^{\overset {\text{ }}{8}}+\left[{\frac {5}{2}}\cdot x-{\frac {x^{2}}{8}}\right]_{8}^{a}\\&=&\left({\frac {64}{8}}-{\frac {3}{2}}\cdot 8\right)-\left({\frac {36}{8}}-{\frac {3}{2}}\cdot 6\right)+\left({\frac {5}{2}}\cdot a-{\frac {a^{2}}{8}}\right)-\left({\frac {5}{2}}\cdot 8-{\frac {64}{8}}\right)\\&=&-{\frac {a^{2}}{8}}+{\frac {5}{2}}\cdot a-{\frac {23}{2}}\end{array}}

4. a > 10

\ F(a)=1

P(X\leq a)=F(a)={\begin{cases}0&{\mbox{für }}a<6\\{\frac {a^{2}}{8}}-{\frac {3}{2}}a+{\frac {9}{2}}&{\mbox{für }}6\leq a\leq 8\\-{\frac {a^{2}}{8}}+{\frac {5}{2}}a-{\frac {23}{2}}&{\mbox{für }}8<a\leq 10\\1&{\mbox{sonst}}\end{cases}}

Wir erhalten beispielsweise durch Einsetzen in F(x)

P(X\leq 7)=F(7)={\frac {7^{2}}{8}}-{\frac {3}{2}}\cdot 7+{\frac {9}{2}}={\frac {1}{8}}\ ,

P(X\leq 9)=F(9)=-{\frac {9^{2}}{8}}+{\frac {5}{2}}\cdot 9-{\frac {23}{2}}={\frac {7}{8}}\ .

Quantil

Das Quantil x(p) gibt die Ausprägung x an, die zu einem bestimmten Verteilungswert p = F(x) gehört. Es handelt sich beim Quantil x(p) also gerade um die Umkehrfunktion der Verteilungsfunktion F(x).

Beispiele

x(0,875) = 9, d.h. zur Wahrscheinlichkeit 0,875 gehört der x-Wert 9.

Ebenso ist x(0,5) = 8. D.h. 8 ist der Median, also wurden an 50% aller Tage höchstens 800 Zeitungen verkauft.

Übung

Bestimmen Sie P(6,25 < X < 8,75). Mit welcher Wahrscheinlichkeit wurden an den 50% besten Tagen mindestens 900 Zeitungen verkauft? Gesucht ist hier P(X > 9| X > 8).

Was Sie speziell über stetige Zufallsvariablen wissen sollten

Eine stetige Zufallsvariable kann in jedem beschränkten Intervall unendlich viele Ausprägungen annehmen. Ihre Verteilung lässt sich durch eine Dichtefunktion f(x) beschreiben. f(x) ist keine Wahrscheinlichkeit, sondern eine Dichte.

Die Verteilungsfunktion ist

P(X\leq a)=F(a)=\int _{-\infty }^{a}f(x)dx

Es gilt: P(X = a) = 0.

Wegen P(X = a) = 0 ist P(X ≤ a) = P(X < a) und P(X > a) = P(X ≥ a)

Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist.

Die Dichtefunktion f(a) kann auch größer als 1 werden.

Ausgehend von $P(X\leq x)=p$ ist das p-Quantil x(p) der Wert x, der zu einer gegebenen Wahrscheinlichkeit p gehört. Speziell x(0,5) ist der Median.

Der Erwartungswert einer stetigen Zufallsvariablen ist analog zu oben

EX=\int _{-\infty }^{\infty }x\cdot f(x)dx,

falls EX existiert, d.h.

\int _{-\infty }^{\infty }|x|\cdot f(x)dx

nicht unendlich wird.

Ihre Varianz ist

\operatorname {Var} \,X=\int _{-\infty }^{\infty }(x-EX)^{2}\cdot f(x)dx

wobei auch hier der Verschiebungssatz angewendet werden kann:

\operatorname {Var} \,X=\left(\int _{-\infty }^{\infty }x^{2}f(x)dx\right)-(EX)^{2}

Bei symmetrisch verteilten Zufallsvariablen ist im Allgemeinen der Erwartungswert der Zufallsvariablen gleich dem Median.

In unserem Beispiel ist also EX = 8, denn die Verteilung ist symmetrisch. Das bedeutet, dass im Durchschnitt pro Tag 800 Zeitungen umgesetzt werden.

Wendet man die gegebene Formel für EX auf unser Beispiel an, so erhält man:

{\begin{array}{ccl}\operatorname {E} \,X&=&\int _{-\infty }^{6}x\cdot 0\,dx+\int _{6}^{8}x\cdot \left({\frac {x}{4}}-{\frac {3}{2}}\right)dx+\int _{8}^{10}x\cdot \left({\frac {5}{2}}-{\frac {x}{4}}\right)dx+\int _{10}^{\infty }x\cdot 0\,dx\\&=&\left[{\frac {x^{3}}{12}}-{\frac {3x^{2}}{4}}\right]_{6}^{8}+\left[{\frac {5x^{2}}{4}}-{\frac {x^{3}}{12}}\right]_{8}^{\overset {\text{ }}{10}}=8\end{array}}

Entsprechend gilt für die Varianz:

${\begin{array}{ccl}\operatorname {Var} \,X&=&\int _{-\infty }^{6}x^{2}\cdot 0\ dx+\int _{6}^{8}x^{2}\cdot \left({\frac {x}{4}}-{\frac {3}{2}}\right)dx+\int _{8}^{10}x^{2}\cdot \left({\frac {5}{2}}-{\frac {x}{4}}\right)dx\\&&+\int _{10}^{\overset {\text{ }}{\infty }}x^{2}\cdot 0\,dx-64\\&=&\left[{\frac {x^{4}}{16}}-{\frac {3x^{3}}{6}}\right]_{6}^{8}+\left[{\frac {5x^{3}}{6}}-{\frac {x^{4}}{16}}\right]_{8}^{10}-64={\frac {2}{3}}\approx 0{,}7\end{array}}$

Beispiel: Eingehende Anrufe bei Fernsehabstimmungen

Während einer Fernsehsendung wurden die Zuschauer aufgefordert, telefonisch abzustimmen. Die Leitungen wurden um 14 Uhr freigeschaltet. Dann konnten die Zuschauer bis ca. 17.30 Uhr anrufen. Für die eintreffenden Anrufe ergab sich näherungsweise die Verteilungsfunktion der stetigen Zufallsvariablen X: Zeitpunkt (Uhrzeit), an dem ein Anruf eintrifft, wie folgt:

F(x)={\begin{cases}0&{\mbox{für }}x<2\\\ln x-\ln 2&{\mbox{für }}2\leq x\leq 2e\\1&{\mbox{für }}x>2e\end{cases}}

Sei jetzt $\omega \in \Omega$ ein beliebiger Anruf.

Wir wollen nun bestimmen

die Dichtefunktion f(x)
die Wahrscheinlichkeit, dass bis höchstens 15 Uhr der Anruf $\omega$ eingegangen ist.
die Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf $\omega$ eingegangen ist.
die Uhrzeit, zu der 90% aller Anrufe eingetroffen sind
den Median
den Erwartungswert
die Varianz

Die Grafik der Verteilung F(X) zeigt den typischen Verlauf einer logarithmischen Funktion.

1. Dichtefunktion f(x)

Die Dichtefunktion ist immer die erste Ableitung der Verteilungsfunktion: f(x) = F'(x).

Unsere Verteilungsfunktion ist abschnittsweise definiert. Wir müssen bereichsweise ableiten (dass die Funktion an den Knickstellen möglicherweise nicht differenzierbar ist, tut im Allgemeinen nicht weh, Hauptsache, die Fläche ergibt 1).

Bereich x < 2:

F(x)=0\to f(x)=0

Bereich 2 ≤ x ≤ 2e:

F(x)=\ln x-\ln 2\to f(x)={\frac {1}{x}}

Bereich x > 2e:

F(x)=1\to f(x)=0

Wir wollen jetzt f(x) noch ordentlich angeben:

f(x)={\begin{cases}{\frac {1}{x}}&{\mbox{für }}2\leq x\leq 2e\\0&{\mbox{sonst}}\end{cases}}

Betrachten wir mal die Dichtefunktion: Man sieht hier deutlich, dass die meisten Anrufe in den ersten 1,5 Stunden nach Freischalten eingelaufen sind. Danach flaut die Zahl der Anrufe allmählich ab.

2. Wahrscheinlichkeit, dass bis höchstens 15 Uhr der Anruf ω eingegangen ist

Gesucht ist P(X ≤ 3). In der Dichtefunktion ist das die Fläche von 2 bis 3. Diese Fläche ist das Selbe wie der Funktionswert F(3). Wir erhalten

P(X\leq 3)=\ln 3-\ln 2=1{,}0986-0{,}6931=0{,}4055

Man kann also sagen, dass in einer Stunde ab Freischalten der Leitungen 40% der Anrufe eingegangen sind.

Fläche der Dichtefunktion für P(3 < X < 4)

3. Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf ω eingegangen ist

Gesucht ist hier P(3 ≤ X ≤ 4). Wir wissen schon, dass speziell für stetige Zufallsvariablen (bei diskreten muss man noch zwischen < und ≤ unterscheiden) gilt: P(3 ≤ X ≤ 4) = P(X ≤ 4) - P(X ≤ 3). Wir erhalten dann

$P(3\leq X\leq 4)$	$\ =F(4)-F(3)$
	$\ =\ln 4-\ln 2-(\ln 3-\ln 2)$
	$\ =\ln 4-\ln 3$
	$=\ 1{,}3863-1{,}0986=0{,}2877$

4. Uhrzeit, zu der 90% aller Anrufe eingetroffen sind

Hier ist die Wahrscheinlichkeit 0,9 gegeben und wir suchen den X-Wert, der zu dieser Wahrscheinlichkeit passt, also P(X ≤ ?) = 0,9. Gesucht ist also das 90%-Quantil. Wir bilden den Ansatz

F(?) = 0,9 oder etwas professioneller: F(x(0,9)) = 0,9, also