Statistik: Zufallsvariablen

Beispiel zum Begriff der Zufallsvariablen

Die fränkische Druckerei Printzig nennt 10 multifunktionelle Hochleistungsdrucker ihr Eigen. Drei Drucker sind von der Firma Alpha, zwei sind von Beta, vier von Gamma und einer stammt von der Firma Delta. Da die Drucker auch von Kunden bedient werden, fallen sie aufgrund unsachgemäßer Handhabung häufig aus. Man hat festgestellt, dass alle Drucker in gleichem Maße anfällig sind. Wegen der Gewährleistung wird bei jedem Ausfall ein Wartungstechniker der betreffenden Firma geholt. Die Kosten für die Wiederherstellung eines Druckers hängen vom Hersteller ab, wobei die Drucker der Firma Gamma in der Reparatur am billigsten sind.

Am liebsten ist es natürlich Herrn Printzig, wenn ein Drucker mit den geringsten Reparaturkosten ausfällt.

Überlegen wir:

Welche Ergebnismenge gehört zu dem Zufallsvorgang: Ein Drucker fällt zufällig aus?
Mit welcher Wahrscheinlichkeit entstehen Herrn Printzig die geringsten Kosten?

Wir erhalten die Ergebnismenge

Ω = {A₁, A₂, A₃, B₁, B₂, G₁, G₂, G₃, G₄, D₁},

wobei z.B. B₂ Drucker Nr. 2 der Firma Beta bedeutet. G sei das Ereignis, die geringsten Reparaturkosten zu haben. Jeder Drucker hat die gleiche Wahrscheinlichkeit, auszufallen. Dann ist nach dem Symmetrieprinzip

P(G)={\frac {\operatorname {Zahl\;der\;G-Drucker} }{\mathrm {Zahl\;aller\;Drucker} }}={\frac {|G|}{|\Omega |}}={\frac {4}{10}}=0,4\ \;

Die Kosten für die Reparatur eines Druckers betragen je nach Hersteller wie folgt:

Hersteller	Alpha	Beta	Gamma	Delta
Kosten (Euro)	50	60	30	100

Überlegen wir: Wieviel muss Herr Printzig pro Ausfall im Durchschnitt bezahlen?

Ordnen wir nun der Ergebnismenge die entsprechenden Kosten zu:

A₁	A₂	A₃	B₁	B₂	G₁	G₂	G₃	G₄	D₁
$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$	$\downarrow$
50	50	50	60	60	30	30	30	30	100

Ω hat 10 Ergebnisse und jedes Elementarereignis hat die Wahrscheinlichkeit 1/10. Jeder Drucker fällt dann auch mit der Wahrscheinlichkeit 1/10 aus. Die durchschnittlichen Reparaturkosten sind also

{\begin{array}{cl}&50\cdot {\frac {1}{10}}+50\cdot {\frac {1}{10}}+50\cdot {\frac {1}{10}}+60\cdot {\frac {1}{10}}+60\cdot {\frac {1}{10}}+...+100\cdot {\frac {1}{10}}\\=&50\cdot {\overset {\text{ }}{\frac {3}{10}}}+60\cdot {\frac {2}{10}}+30\cdot {\frac {4}{10}}+100\cdot {\frac {1}{10}}\\=&{\overset {\text{ }}{\frac {150}{10}}}+{\frac {120}{10}}+{\frac {120}{10}}+{\frac {100}{10}}={\frac {490}{10}}=49{\text{ Euro}}\end{array}}

Wir haben soeben eine Zufallsvariable konstruiert und zwar, indem wir allen Ergebnissen von Ω eine Zahl zugeordnet haben.

Den Durchschnitt konnten wir erst berechnen, nachdem wir die Drucker mit einer Zahl versehen hatten. Man kann je nach Interesse den Elementarereignissen beliebige Zahlen zuordnen. So könnten für die laufende Wartung wieder ganz andere Kosten gelten. Nur die Ergebnismenge ist festgelegt. Man könnte nun die Wahrscheinlichkeit berechnen, dass bei einem Ausfall 60 Euro fällig werden: Es gibt 10 Elementarereignisse und zwei davon entsprechen 60 Euro. Also beträgt diese Wahrscheinlichkeit 2/10.

Wir bezeichnen eine Zufallsvariable mit einem großen Buchstaben. Die Werte, die eine Zufallsvariable annehmen kann, nennt man Ausprägung. Eine bestimmte Ausprägung kennzeichnen wir mit einem Kleinbuchstaben. Nennen wir unsere Zufallsvariable „Reparaturkosten“ X. Wir fassen jetzt die verschiedenen Wahrscheinlichkeiten der Zufallsvariablen X in einer Wahrscheinlichkeitstabelle zusammen. Herr Printzig hat 4 mal die „Chance“, 30 Euro zu bezahlen, also ist die Wahrscheinlichkeit, dass X = 30 ist, gleich 4/10, usw.

Wahrscheinlichkeitstabelle:

	x₁	x₂	x₃	x₄
Ausprägung x_i	30	50	60	100
Wahrscheinlichkeit f(x_i)	0,4	0,3	0,2	0,1

Wahrscheinlichkeitsfunktion von X: Reparaturkosten

f(x) bezeichnet die zur bestimmten Ausprägung x gehörende Wahrscheinlichkeit. Es ist beispielsweise

P(X = 60) = f(x₃) = f(60) = 0,2,

aber

P(X = 70) = f(70) = 0,

denn für X = 70 existiert kein Ergebnis.

Die Summe aller Wahrscheinlichkeiten ist

\sum _{i=1}^{m}f(x_{i})=1\;

Man kann diese Wahrscheinlichkeiten auch grafisch als Stabdiagramm darstellen.

Man sieht, dass an den x-Stellen 30, 50, 60 und 100 die Wahrscheinlichkeitsfunktion die Werte 0,4, 0,3, 0,2 und 0,1 annimmt, aber an allen sonstigen Werten von x Null ist.

Wie groß ist nun aber die Wahrscheinlichkeit, dass Herr Printzig höchstens 50 Euro bezahlen muss?

P(X ≤ 50) = P(X = 30) + P(X = 50) = 0,4 + 0,3 = 0,7.

Das kann man auch aus der Graphik ersehen: Es ist die Summe der „Stäbchen“ für x ≤ 50.

Mit welcher Wahrscheinlichkeit muss Herr Printzig weniger als 100 Euro zahlen? Gefragt ist hier nach P(X < 100). Ein Blick auf die Grafik verrät uns, dass gilt

P(X < 100) = P(X ≤ 60) = P(X = 30) + P(X = 50) + P(X = 60) = 0,4 + 0,3 + 0,2 = 0,9.

Wieviel ist nun P(30 < X ≤ 60)?

Man kann hier wieder die „Stäbchenmethode“ anwenden:

P(30 < X ≤ 60) = 0,3 + 0,2 = 0,5.

Es gibt aber auch eine Rechenregel, die man mit Hilfe der Grafik leicht erkennt:

P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a),

also

P(30 < X ≤ 60) = P(X ≤ 60) - P(X ≤ 30) = 0,9 - 0,4 = 0,5.

Die Wahrscheinlichkeiten P(X ≤ a) einer bestimmten Ausprägung a von X bilden die Verteilungsfunktion von X, die die Wahrscheinlichkeitsverteilung von X in eindeutiger Weise beschreibt. Das ist eine Festlegung, die die Statistiker als sinnvoll erachten. Die Verteilungsfunktionen werden grossbuchstabig als F(a) bezeichnet. Meist wird statt a das Symbol x verwendet. Wir wollen die Verteilungsfunktion konstruieren, indem wir die obige Graphik zu Hilfe nehmen und für einzelne Stützwerte x die Verteilungsfunktion berechnen.

Wie groß ist z.B. P(X ≤ 10)? Es ist P(X ≤ 10) = F(10) = 0.

Ebenso sind P(X ≤ 15) = 0 und P(X ≤ 20) = 0.

Es ist also F(a) = 0 für alle Werte von a mit - ∞ < a < 30.

Als nächstes untersuchen wir P(X ≤ 30):

P(X ≤ 30) = F(30) = 0,4 . Ebenso sind P(X ≤ 30,1) = 0,4 und P(X ≤ 49,99999) = 0,4.

Die Verteilungsfunktion hat also den Wert F(a) = 0,4 für 30 ≤ a < 50.

Es gilt weiter: P(X ≤ 50), P(X ≤ 59), ... P(X< 60) sind, siehe Graphik: 0,4 + 0,3 = 0,7.

...

Schließlich ist die Wahrscheinlichkeit P(X ≤ 100) oder auch P(X ≤ 110), P(X ≤ 1000) usw... gleich 1.

Wir können die Wahrscheinlichkeiten zusammenfassen in der Verteilungsfunktion

Verteilungsfunktion von X: Reparaturkosten

P(X\leq a)=F(a)={\begin{cases}0&{\mbox{für }}a<30\\0{,}4&{\mbox{für }}30\leq a<50\\0{,}7&{\mbox{für }}50\leq a<60\\0{,}9&{\mbox{für }}60\leq a<100\\1&{\mbox{für }}a\geq 100\end{cases}}

Man sieht, dass diese Verteilungsfunktion grafisch eine Treppenfunktion darstellt. Die Punkte links an den Stufen zeigen an, dass der Funktionswert dieser Stufe genau zum Punkt a gehört.

Man kann hier auch die Wahrscheinlichkeiten der Grafik entnehmen, z.B. ist P(X ≤ 70) = 0,9.

Besonders interessiert man sich bei einer Zufallsvariable für zwei Kennwerte, Parameter genannt, die die Zufallsvariable genauer beschreiben.

Einer ist der durchschnittliche Wert, den die Zufallsvariable „auf lange Sicht“ annimmt, wenn der Zufallsvorgang „sehr oft“ durchgeführt wird. Dieser Parameter wird Erwartungswert EX genannt, also der Wert, den man langfristig erwarten kann. Wir hatten ihn schon oben ermittelt als

EX=50\cdot {\frac {3}{10}}+60\cdot {\frac {2}{10}}+30\cdot {\frac {4}{10}}+100\cdot {\frac {1}{10}}=49\;

die durchschnittlichen Reparaturkosten.

Ein weiterer Parameter ist die Streuung der X, ein Maß, wie stark die einzelnen Werte von X von EX abweichen, also 30-49, 50-49, 60-49, 100-49. Da z.B. 100 viel seltener auftritt als 30, gewichtet man auch diese Abweichungen mit ihrer Wahrscheinlichkeit. Eine Quadrierung sorgt dann einerseits dafür, dass sich positive und negative Abweichungen nicht aufheben, andererseits für eine überproportionale Berücksichtigung von besonders starken Abweichungen. Man erhält im Ergebnis als durchschnittliche quadratische Abweichung der X-Werte von EX die Varianz

{\begin{array}{ccl}\operatorname {Var} \,X&=&(30-49)^{2}\cdot 0{,}4+(50-49)^{2}\cdot 0{,}3\\&&+(60-49)^{2}\cdot 0{,}2+(100-49)^{2}\cdot 0,1\\&=&361\cdot 0{,}4+1\cdot 0{,}3+121\cdot 0{,}2+2601\cdot 0{,}1=429\end{array}}

wobei zu beachten ist, dass sich hier als Einheit Euro² ergibt.

Die Wurzel der Varianz ist die Standardabweichung; man könnte sie salopp als mittlere Abweichung der Ausprägungen vom Durchschnitt bezeichnen. Sie beträgt in unserem Beispiel etwa 20,71.

Allgemeine Darstellung einer Zufallsvariablen

Gegeben ist ein Zufallsvorgang mit der Ergebnismenge Ω. Jedem Element aus Ω wird eine reelle Zahl x zugeordnet:

\Omega \to \mathbb {R} ,\;\;\omega \mapsto x

.

Die Elemente von X sind Realisationen, Ausprägungen, Werte. Die Verteilung der Zufallsvariablen kann festgelegt werden mit ihrer Verteilungsfunktion F, definiert als

F(x)=P(X\leq x)

.

Es gilt für die Verteilung jeder Zufallsvariablen:

F(x) ist für alle x ∈ $\mathbb {R}$ definiert.

0 ≤ F(x) ≤ 1 .

F(x) ist monoton steigend, also x₁ < x₂ → F(x₁) ≤ F(x₂)

F(x) ist rechtsseitig stetig.

P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a) = F(b) - F(a).

↓ Diskrete Zufallsvariablen

↑ Kombinierte Zufallsvorgänge

↑↑ Inhaltsverzeichnis Statistik