← zurück - zum Inhaltsverzeichnis - weiter →

K3: Bedingte Wahrscheinlichkeit

Diskrete Wahrscheinlichkeitsrechnung

3. Bedingte Wahrscheinlichkeit und Unabhängigkeit

3.1 Bedingte Wahrscheinlichkeit

Es kommt manchmal vor, dass vom Ergebnis eines Experiments im Voraus schon etwas bekannt ist oder unterstellt wird. Befragen wir einen beliebigen Passanten in München, dann ist die Wahrscheinlichkeit, dass er CSU-Wähler ist, größer als für jemand aus Berlin. Wir stellen uns das Experiment so vor, dass wir beliebig eine deutsche Person wählen mit der Bedingung er (sie) kommt aus Berlin. Unter dieser Bedingung fragen wir nach der Wahrscheinlichkeit, dass er (sie) CSU wählt. Es handelt sich hier um eine andere "Wahrscheinlichkeit" als bisher. Es erfordert eine neue Definition. Im Beispiel fragen wir nach der bedingter Wahrscheinlichkeit, dass ein beliebiger Deutscher CSU-Wähler ist, wenn bekannt ist, dass er in Berlin wohnt. Es scheint logisch, diese bedingte Wahrscheinlichkeit als die Wahrscheinlichkeit zu betrachten, dass ein Berliner CSU-Wähler ist. Deuten wir mit C den CSU-Wählern an, und mit B die Berliner, dann wäre diese (bedingte) Wahrscheinlichkeit |CB|/|B|. Wir notieren die bedingte Wahrscheinlichkeit als P(C|B), und es gilt:

P(C|B)={\frac {|CB|}{|B|}}={\frac {|CB|/N}{|B|/N}}={\frac {P(CB)}{P(B)}},

worin N die Gesamtanzahl der Deutschen ist.

Auf dieser Weise können wir die bedingte Wahrscheinlichkeit in unbedingten Wahrscheinlichkeiten ausdrücken. Diesen intuitiven Gedanken für symmetrische Wahrscheinlichkeitsräume benutzen wir auch als allgemeine Definition für beliebige Wahrscheinlichkeitsräume.

Definition 3.1.1

Es seien A und B zwei Ereignisse, und P(B) > 0; wir nennen

P(A|B)={\frac {P(AB)}{P(B)}}

die bedingte Wahrscheinlichkeit das A eintritt , wenn bekannt ist dass B eintritt oder eingetreten ist. Wir sagen kurz auch: die Wahrscheinlichkeit von A unter der Bedingung B, oder die Wahrscheinlichkeit von A vorausgesetzt B.

Bemerkung 1

Die Notation P(A|B) für die bedingte Wahrscheinlichkeit von A vorausgesetzt B ist historisch bestimmt, aber könnte leicht Verwirrung bringen. Wir sollen dies nicht lesen als die Wahrscheinlichkeit P von dem Ereignis (?) "A|B". Es wäre logischer P_B(A) zu schreiben, um damit auszudrücken, dass es sich um eine andere Wahrscheinlichkeit, nämlich P_B, handelt und nicht um die (unbedingte) Wahrscheinlichkeit P selbst. Es hat aber Nachteile, komplizierte Ereignisse B als Index an P zu hängen, sodass wir die Notation P(A|B) beibehalten.

Bemerkung 2

Der Strich, der die zwei Ereignisse separiert, ist ein senkrechter vertikaler Strich, und darf nicht schräg geschrieben werden.

Beispiel 1

Wir ziehen ohne Zurücklegen und mit Beachtung der Reihenfolge, beliebig 5-mal eine Kugel aus einer Urne mit 10 roten und 20 weißen Kugeln. Die Wahrscheinlichkeit, dass die erste Kugel rot ist, beträgt 1/3. Die Wahrscheinlichkeit, dass die zweite Kugel rot ist, ist ebenfalls 1/3. Aber die Wahrscheinlichkeit, dass die zweite Kugel rot ist, vorausgesetzt die erste ist rot, ist:

P("2e rot"|"1e rot") = P("2e rot" und "1e rot")/P("1e rot") =

{\frac {\frac {10\times 9}{30\times 29}}{\frac {1}{3}}}={\frac {9}{29}}

.

Dieses Ergebnis wird uns nicht erstaunen. Wir können diese bedingte Wahrscheinlichkeit direkt berechnen, wenn wir das Experiment betrachten, das entsteht, nachdem wir zuerst eine rote Kugel gezogen haben und danach wieder eine Kugel ziehen.

Beispiel 2

In einer Schachtel gibt es zwei Münzen. Eine der Münzen ist fair, d. h. sie hat eine Kopf- und eine Zahlseite, während die andere Münze an beiden Seiten einen Kopf zeigt. Wir wählen beliebig eine der Münzen und werfen sie. Es zeigt sich einen Kopf. Wie groß ist die Wahrscheinlichkeit, dass die andere Seite dieser Münze auch einen Kopf hat?

Es sei A das Ereignis "Kopf" und B das Ereignis, dass die Münze auf beiden Seiten einen Kopf hat. Dann ist P(B|A) die erlangte bedingte Wahrscheinlichkeit. Es gilt P(A) = 3/4, denn 3 der insgesamt 4 Seiten der Münzen zeigen einen Kopf, und sie haben alle die gleiche Wahrscheinlichkeit. Außerdem gilt P(BA) = P(B) = 1/2, denn B ist ein Teil von A und beide Münzen haben die gleiche Wahrscheinlichkeit gewählt zu werden. Also ist P(B|A) = P(BA)/P(A) = 2/3.

Aus der Definition von bedingter Wahrscheinlichkeit geht leicht hervor, dass für ein festes Ereignis B mit P(B) > 0, die bedingte Wahrscheinlichkeit P( · |B) eine Wahrscheinlichkeit ist, sowohl auf S als auch auf B, d. h. sie erfüllt wie P die Axiome von Kolmogorov.

Satz 3.1.1

Es sei (S,P) ein Wahrscheinlichkeitsraum, und B ein Ereignis mit P(B) > 0; dann ist die bedingte Wahrscheinlichkeit P( · |B) eine Wahrscheinlichkeit sowohl auf S als auch auf B.

Beweis

Betrachte die Funktion

p_{B}(s)=P(\{s\}|B)\;

Dafür gilt:

p_{B}(s)\geq 0\;

für jedes Ergebnis s ∈ S

und

\sum _{s\in S}p_{B}(s)=\sum _{s\in B}p_{B}(s)=1\;

Also ist p_B eine Wahrscheinlichkeitsfunktion, und damit P( · |B) eine Wahrscheinlichkeit, sowohl auf S als auf B.

Die Definition von bedingter Wahrscheinlichkeit führt direkt zum Ergebnis, dass für zwei Ereignissen A und B gilt: P(AB) = P(A)P(B|A). Wir können dieses Ergebnis erweitern für mehr als zwei Ereignissen und erhalten damit den Multiplikationssatz für Wahrscheinlichkeiten.

Satz 3.1.2 (Multiplikationssatz)

Für den Ereignissen $A_{1},A_{2},\ldots ,A_{n}$ mit $P(A_{1}A_{2}\ldots A_{n-1})>0$ gilt:

P(A_{1}A_{2}...A_{n})=P(A_{1})P(A_{2}|A_{1})P(A_{3}|A_{1}A_{2})\dots P(A_{n}|A_{1}A_{2}\ldots A_{n-1})

.

Beispiel 3 (Fortsetzung des Beispiels 1)

Es sei A_i das Ereignis dass die als i. gezogene Kugel rot ist. Dann ist: P(A₁) = 1/3 und P(A₂|A₁) = 9/29, und damit P(A₁A₂) = P(A₁)P(A₂|A₁) = 3/29. Wir können P(A₂) wie folgt berechnen:

P(A_{2})=P(A_{2}A_{1}\cup A_{2}A_{1}^{c})=P(A_{2}A_{1})+P(A_{2}A_{1}^{c})=

=P(A_{2}|A_{1})P(A_{1})+P(A_{2}|A_{1}^{c})P(A_{1}^{c})={\tfrac {9}{29}}\times {\tfrac {10}{30}}+{\tfrac {10}{29}}\times {\tfrac {20}{30}}={\tfrac {10}{30}}

.

Die letztere Berechnung im Beispiel können wir auch allgemein formulieren. Wir haben die Wahrscheinlichkeit vom Ereignis A₂ berechnet durch eine Zerlegung (Partition) von A₂ zu betrachten. Wir sagen dass wir die gesamte Wahrscheinlichkeit von A₂ mittels der bedingten Wahrscheinlichkeiten der Partition berechnen. Wir geben noch ein Beispiel.

Beispiel 4

Wir möchten den Anteil der deutschen CDU-Wähler bestimmen. Dazu können wir die Anzahl N der deutschen Wählern und die Anzahl |A| unter ihnen, welche die CDU wählen, bestimmen. Der erlangte Anteil ist p = |A|/N.

Unterstelle jetzt dass für die Bundesländer die Daten bekannt sind und zwar ist für das i. Bundesland der Anteil

p_{i}={\frac {|A_{i}|}{N_{i}}}

;

dann ist:

p={\frac {|A|}{N}}=\sum {\frac {|A_{i}|}{N}}=\sum {\frac {|A_{i}|}{N_{i}}}{\frac {N_{i}}{N}}=\sum p_{i}{\frac {N_{i}}{N}}

.

In einem symmetrischen Wahrscheinlichkeitsraum mit S = {alle deutsche Wähler} und A = {CDU-Wähler} stimmt diese Beziehung überein mit

P(A) = ∑ P(A|Bundesland i)·P(Bundesland i).

Die allgemeine Formulierung lautet:

Satz 3.1.3 (Gesetz der totalen Wahrscheinlichkeit)

Wenn die Ereignisse A₁,A₂,..., mit P(A_n) > 0 für alle n, eine Partition des Ergebnisraumes S bilden, gilt:

\!P(B)=\sum _{n}P(B|A_{n})P(A_{n})

.

Oft kennen wir alle bedingten Wahrscheinlichkeiten P(B|A_n) und können damit die unbedingte Wahrscheinlichkeit P(B) berechnen. Im nächsten Beispiel wird das Gesetz der totalen Wahrscheinlichkeit auf diese Weise angewendet.

Beispiel 5

Ein Betrieb hat drei Produktionsstellen A, B und C, wo Rasiergeräte hergestellt werden. Es wurden in einer bestimmte Periode an der Stelle A 2000 Geräte fabriziert, wovon 200 defekt waren, an der Stelle B wurden in der Periode 5000 Geräte fabriziert, wovon 300 defekt waren und in C fabrizierte man 3000 Geräte, worunter 150 Defekte. Aus der Gesamtproduktion dieser Periode wird nun beliebig ein Rasiergerät gewählt. Was ist die Wahrscheinlichkeit dieses Gerät sei defekt (D)? Die Daten sind in der unterstehenden Tabelle zusammengestellt:


Stelle $F$	$P(F)$	$P(D\|F)$	$P(D\|F)P(F)$

$A$	2000/10000	200/2000	200/10000
$B$	5000/10000	300/5000	300/10000
$C$	3000/10000	150/3000	150/10000

Total	1		650/10000

Die Berechnung in der letztere Spalte zeigt, wie unter Anwendung des Gesetzes der totalen Wahrscheinlichkeit die verlangte Wahrscheinlichkeit berechnet wird: P(D) = P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C) = 0,065.

Es zeigte sich dass das gewählte Gerät defekt ist! Wie groß ist die Wahrscheinlichkeit, dass dieses Gerät am Standort A hergestellt wurde? Wir fragen also nach P(A|D), die bedingte Wahrscheinlichkeit, dass das Gerät in A hergestellt worden ist, vorausgesetzt es ist defekt. Wir berechnen:

P(A|D)={\frac {P(A\cap D)}{P(D)}}={\frac {P(D|A)P(A)}{P(D)}}={\frac {0{,}020}{0{,}065}}={\frac {4}{13}}

.

Die letztere Berechnung im Beispiel ist eine Anwendung der sogenannten Satz von Bayes, auch Formel von Bayes, Bayestheorem oder Bayes'schen Gesetz genannt. Der Satz zeigt, wie man wenn jeder der bedingten Wahrscheinlichkeiten von D vorausgesetzt A, B oder C gegeben sind, die "umgekehrte" bedingte Wahrscheinlichkeiten von jeder der Ereignissen A, B und C vorausgesetzt D berechnen kann.

Satz 3.1.4 (Satz von Bayes)

Es bilden A₁,A₂,..., mit P(A_n) > 0 für jede n, eine Partition von S und es sei B ein Ereignis mit P(B) > 0 , dann gilt:

P(A_{n}|B)={\frac {P(B|A_{n})P(A_{n})}{P(B)}}={\frac {P(B|A_{n})P(A_{n})}{\sum _{i}P(B|A_{i})P(A_{i})}}

.

Beweis

Der Satz folgt direkt aus der Definition bedingter Wahrscheinlichkeit unter Anwendung des Gesetzes der totalen Wahrscheinlichkeit.

Beispiel 6

Der Prototyp eines Geräts, um in Banken Münzen auszusortieren, machte ziemlich viel Fehler. Das Gerät akzeptierte eine Mischung von 2-Euro, 1-Euro und 50-Eurocent Münzen, und zählte die unterschiedene Geldstücken. Aber nicht fehlerfrei! Proben zeigten dass Münzen mal verwechselt wurden. Von 1000 2-Euro Münzen wurden 16 als 1-Euro und 33 als 50-Eurocent gezählt. Von 1000 1-Euro Münzen wurden nur 5 als 2-Euro Münze gezählt, aber 71 als 50-Eurocent, und von 1000 50-Eurocent Münzen wurden 14 für 1-Euro angesehen und 32 für 2-Euro. Wie groß ist die Wahrscheinlichkeit dass in der Praxis eine gezählte Münze auch wirklich eine 2-Euro Münze ist ({2!}) wenn das Gerät sie als solche bestimmt hat ({2?})? Wir unterstellen, dass 10% der angebotenen Münzen 2-Euro Münzen sind und 40% 1-Euro Münzen. Die relevanten Daten sind in der unterstehenden Tabelle zusammen gefasst:


Münze $M$	$P(M)$	$P(2?\|M)$	$P(2?\|M)P(M)$

2	0,10	0,951	0,0951
1	0,40	0,005	0,0020
0,5	0,50	0,032	0,0160

Total	1,00		0,1131	= $P(2?)$

Mit dem Satz von Bayes berechnen wir:

P(2!|2?) = P(2?|2!)P(2!)/P(2?) = 0,0951/0,1131 = 0,841.

Das Gesetz der totalen Wahrscheinlichkeit kann man grafisch vorstellen in einem Wahrscheinlichkeitsbaum. Im nächsten Beispiel wird dies gezeigt.

Beispiel 7 (Wahrscheinlichkeitsbaum)

Wir betrachten die Situation des Beispiels 5, und machen davon die untenstehende Vorstellung. Diese Grafik, die Wahrscheinlichkeitsbaum genannt wird, spricht weiterhin für sich.

Auch für komplexere Situationen lässt sich ein Wahrscheinlichkeitsbaum konstruieren. Wir zeigen davon kein Beispiel.