Mathematik: Statistik: Druckversion

Aus Wikibooks

Wechseln zu: Navigation, Suche

<< Mathematik: Statistik


Druckversion des Buches Mathematik: Statistik.
  • Dieses Buch umfasst derzeit etwa 121 DIN-A4-Seiten einschließlich Bilder (Stand: September 2007).
  • Wenn Sie dieses Buch drucken oder die Druckvorschau Ihres Browsers verwenden, ist diese Notiz nicht sichtbar.
  • Zum Drucken klicken Sie in der linken Menüleiste im Abschnitt „Werkzeuge“ auf Druckversion.
  • Mehr Informationen über Druckversionen siehe Wikibooks:Druckausgaben.
  • Hinweise:
    • Für einen reinen Text-Ausdruck kann man die Bilder-Darstellung im Browser deaktivieren.
    • Texte, die in Klappboxen stehen, werden nicht mit ausgedruckt.


Internet-Explorer: Extras > Internetoptionen > Erweitert > Bilder anzeigen (Häkchen entfernen und mit OK bestätigen),
Mozilla Firefox: Extras > Einstellungen > Inhalt > Grafiken laden (Häkchen entfernen und mit OK bestätigen),
Opera: Ansicht > Bilder > Keine Bilder.


Inhalt



0.  Was ist Statistik?
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 0 vom Inhaltsverzeichnis

Was ist Statistik?

Durchschittliche Tageskurse der Firma Dachs AG im Januar 2005
Durchschittliche Tageskurse der Firma Dachs AG im Januar 2005

Statistik begegnet uns überall im täglichen Leben:

  • Die Lebenshaltungskosten sind gegenüber dem Vorjahr um 2 Prozentpunkte gestiegen.
  • Im Januar 2005 erzielte die Firma Dachs im Durchschnitt die täglichen Aktienkurse, wie in der Grafik angegeben.
  • Hochrechnung von Wahlergebnissen
  • Wieviel Gewinn kann eine Lottogesellschaft auswerfen, damit ihr noch Überschuss bleibt?

Was haben diese Beispiele gemeinsam? Sie basieren auf Daten, und zwar sehr vielen Daten. In diese Daten wird Ordnung gebracht: Mit einer Grafik, mit Wahrscheinlichkeiten, mit Durchschnittsberechnungen, mit Vergleichen. Das ist angewandte Statistik.

Wir kommen damit zu einer Definition der Statistik, die relativ kurz und schnörkellos ist, aber im Wesentlichen alles sagt:

Statistik ist die Gesamtheit der Methoden, die für die Untersuchung von Massendaten angewendet werden können.

Ziel der Statistik ist es also, Massendaten zu reduzieren und zu komprimieren, um Gesetzmäßigkeiten und Strukturen in den Daten sichtbar zu machen.


Anwendung im wirtschaftlichen Kontext

Die Lage der Unternehmen heute ist geprägt von Globalisierung, Konkurrenz und Kostendruck. Einsame Manager-Entscheidungen aus dem Bauch heraus führen häufig zum Ruin des Unternehmens. Die Analyse von Wirtschafts- und Unternehmensdaten erlaubt rationale und fundierte Unternehmensentscheidungen. In der Realität sind jedoch Informationen über Unternehmensprozesse nur teilweise bekannt. Gründe dafür sind beispielsweise

  1. Die Informationen sind zu komplex, um vollständig erhoben zu werden. Beispiel: Der Papierverbrauch in einem großen Unternehmen hängt von vielen Faktoren ab, wie der Zahl der Kopien eines Schreibens, der Neigung der Mitarbeiter, sich alles ausdrucken zu lassen (E-Mails!), dem Umfang des Verteilers für bestimmte Schreiben etc. Man kann den Verbrauch nicht analytisch bestimmen.
  2. Zukünftige Unternehmenszahlen sind nicht bekannt und müssen geschätzt werden, z. B. der Cash-Flow einer geplanten Investition für die Finanzierungsrechnung.
  3. Umwelteinflüsse können nicht vorherbestimmt werden, etwa die „Gefahr“ einer Steuererhöhung oder die Akzeptanz eines neuen Produkts durch den Kunden.

In solchen Fällen können keine exakten Entscheidungsgrundlagen geliefert werden. Die resultierenden Lösungen sind „unscharf“. Ein Hilfsmittel für die Entscheidung unter Unsicherheit ist die Statistik.

Da in der heutigen informationsbasierten Gesellschaft eher zu viel als zu wenig Daten verfügbar sind, gewinnt die Statistik als Werkzeug der Entscheidungsfindung immer mehr an Bedeutung.

Einteilung der statistischen Methoden

  1. Deskriptive (beschreibende, empirische) Statistik: Man untersucht ein Phänomen und fasst die Daten zusammen, ordnet sie, stellt sie grafisch dar. Auf wissenschaftliche Aussagen wird verzichtet.
  2. Induktive (schließende, folgernde, mathematische, analytische) Statistik: Grundlage ist die Wahrscheinlichkeitstheorie. Ergebnisse der deskriptiven Statistik dienen häufig als Ausgangspunkt für verallgemeinernde Aussagen.

Die mathematische Statistik selbst ist wie die Wahrscheinlichkeitstheorie ein Teilgebiet der Stochastik.



1.  Wahrscheinlichkeitsrechnung
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 1 vom Inhaltsverzeichnis

Was ist Wahrscheinlichkeit?

Das weiß niemand. Sie ist ein Produkt menschlicher Bemühungen, Ereignisse in der Zukunft vorherzusagen. Sie soll eine Vorstellung über den Grad der Sicherheit vermitteln, mit der ein Ereignis auftritt. Jeder weiß, was es bedeutet, wenn ich sage: Die Wahrscheinlichkeit, eine Sechs zu würfeln ist größer als die Wahrscheinlichkeit, beim Skat einen Grand zu gewinnen. Aber trotzdem kann man Wahrscheinlichkeit nicht exakt definieren. So könnte man Wahrscheinlichkeitstheorie als Stochern im Nebel bezeichnen. Das hat aber nichts mit dem Begriff Stochastik zu tun!



1.1.  Zufallsvorgang und Wahrscheinlichkeit
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 1 vom Inhaltsverzeichnis

Pizzaecken-Beispiel zum Begriff der Wahrscheinlichkeit

Harry und Paula gehen in die Pizzeria. Sie sind frisch verliebt. Paula bestellt sich eine Pizzaecke mit Salami und Harry eine mit Schinken. Dann tauschen sie jeweils eine Hälfte, wobei anzumerken ist, dass die Ecken sich in Rand- und Mittelstück teilen lassen. Obwohl Harry normalerweise Randstücke lieber mag, achtet er in seinem aktuellen Zustand nicht darauf. Und auch Paula gibt ihre Hälfte rein nach Zufall ab.

Pizzaecke
Pizzaecke

Wie groß ist eigentlich die Wahrscheinlichkeit, dass Harry zwei Randstücke auf dem Teller hat?

Die Meisten antworten richtig: 1/4.

Aber wieso beträgt die Wahrscheinlichkeit ausgerechnet 1/4?

Betrachten wir den Vorgang:

Bei gleicher Ausgangslage (Bedingungskomplex) kann der Versuch, zwei halbe Pizzaecken zufällig auszutauschen, beliebig oft wiederholt werden. Jeder Versuch hat einen unsicheren Ausgang. Es handelt sich hier um einen Zufallsvorgang (Experiment, Versuch).

Der Zufallsvorgang wird also beschrieben durch:

  • Gleicher Bedingungskomplex
  • Unsicherer Ausgang
  • Beliebig oft wiederholbar


Ein bestimmtes Paar Eckhälften auf Harrys Teller ist ein Ergebnis. Ein Ergebnis wäre beispielsweise: Die erste Hälfte ist ein Randstück, die zweite Hälfte ist ein Mittelstück,

(R;M) oder kurz RM,

wobei das "linke" Stück von Harry stammt und das "rechte" von Paula.

Alle möglichen Paare fasst man in der Ergebnismenge Ω zusammen:

Ω = {RR, RM, MR, MM}.

Ω ist also die Menge aller möglichen Ergebnisse, die bei einem Zufallsvorgang auftreten können. Führt man diesen Zufallsvorgang unendlich oft durch, müssten vermutlich in 25% aller Versuche zwei Randstücke resultieren, denn man könnte davon ausgehen, dass jedes Paar die gleiche Wahrscheinlichkeit hat, gezogen zu werden. Die Zahl der Ergebnisse, |Ω| genannt, ist also vier. Deshalb ist die Wahrscheinlichkeit für ein Paar Randstücke

P(RR) = \frac{1}{4}\;.

Wenn nun bei einem Versuch beispielsweise "RM" resultiert, ist das ein Ereignis.

Bei "RM" handelt es sich um ein Elementarereignis. Es ist ein Ereignis, das nur ein Element der Ergebnismenge enthält.

Es gibt auch kompliziertere, zusammengesetzte Ereignisse:

A: Mindestens ein Mittelstück: A = {RM, MR, MM}
B: Eine komplette Pizzaecke: B = {RM, MR}

Diese Ereignisse beinhalten mehrere Ergebnisse von Ω; ein Ereignis ist immer eine Teilmenge von Ω.

Die Wahrscheinlichkeit als theoretisches Konzept

Kurzer geschichtlicher Überblick

Es werden vermutlich schon so lange Wahrscheinlichkeiten angewendet, wie es den Homo Sapiens gibt. Am letzten Tag der Schlacht im Teutoburger Wald (9 n. Chr.) gab es ein Gewitter. Die Römer deuteten es als warnenden Hinweis von Merkur, des Gottes von Blitz und Donner. Die Germanen sahen es als Aufmunterung des Kriegsgottes Thor. Wie man weiß, hatten beide Parteien recht.

Im 17. Jahrhundert, dem Zeitalter des Rationalismus, befasste sich Blaise Pascal (1623 - 1662) systematisch mit Wahrscheinlichkeiten im Glücksspiel und begründete so die Wahrscheinlichkeitsrechnung als eigenständige Disziplin.

Jakob Bernoulli (1654 - 1705) befasste sich ebenfalls mit Fragen der diskreten Wahrscheinlichkeiten und gab vermutlich das erste Buch über Wahrscheinlichkeitsrechnung heraus.

Mit Abraham de Moivre (1667 - 1754) und Pierre Simon Laplace (1749 - 1827) wurde bereits die Normalverteilung entwickelt und von Carl Friedrich Gauß (1777 – 1855) weiter bearbeitet.

Richard Edler von Mises (1883 - 1953) lieferte wertvolle Beiträge zur Schätzung von Wahrscheinlichkeiten und zur mathematischen Statistik.

1933 schlug der russische Mathematiker Andrej Nikolajewitsch Kolmogorow (1903 - 1987) eine axiomatische Definition der Wahrscheinlichkeit vor, auf der die heutige Wahrscheinlichkeitstheorie basiert. Diese Definition ist eine Anwendung der Maßtheorie.

Ergebnisse und Ereignisse

Das heutige Konzept der Wahrscheinlichkeitsrechnung präsentiert sich folgendermaßen:

Gegeben ist die Ergebnismenge (Ereignisraum, Stichprobenraum) Ω eines Zufallsvorgangs. Diese Menge enthält alle möglichen Ergebnisse, die ein Zufallsvorgang hervorbringen kann. Je nach Art des Zufallsvorgangs muss man verschiedene Ergebnismengen betrachten:

Ω enthält endlich viele Ergebnisse.

Beispiele:

  • Zufallsvorgang 1x Würfeln. Ω = {1, 2, 3, 4, 5, 6}.
  • Zufallsvorgang: Augenfarbe der nächsten Person, die bei einem Casting vorspricht. Ω = {blau, grün, braun}.


Ω enthält abzählbar unendlich viele Ergebnisse.

Beispiele:

  • Zufallsvorgang: Zahl der Autos, die eine Stunde lang ab 12 Uhr bei einer Fahrzeugzählung an einer bestimmten Zählstelle vorbeifahren. Ω = {0, 1, 2, 3, ...}.
  • Zufallsvorgang: Zahl der Anforderungen an einen Server innerhalb einer Stunde. Ω = {0, 1, 2, ...}.
Man kann zwar die Ergebnisse durchzählen, aber es kann keine vernünftige Obergrenze angegeben werden, deshalb lässt man die Obergrenze offen.


Ist Ω weder abzählbar noch abzählbar unendlich, so enthält Ω überabzählbar viele Ergebnisse. Man könnte auch sagen, die Ergebnismenge ist ein Intervall der reellen Zahlen.

Beispiele:

  • Zufallsvorgang: Eine erwachsene Person wird gewogen (in kg). Ω = {x|30 ≤ x ≤ 200; x ∈ R}.
  • Zufallsvorgang: Cash-Flow eines Unternehmens (in €). Ω = R.
Cash-Flow bezeichnet übrigens die Differenz Einnahmen - Ausgaben, bzw. präziser: Einzahlungen - Auszahlungen.
Hier können die Ergebnisse nicht mehr abgezählt werden. Ein beliebig kleines Intervall der Ergebnismenge enthält unendlich viele Elemente. Was ist das nächstgrößere Element von 50 kg: 51 kg, 50,01 kg oder 50,000000001 kg? Im Intervall [50, 51] sind also unendlich viele Elemente.
Man könnte hier einwenden, dass doch beispielsweise Cash-Flow als kleinste Einheit Cent hat, also doch eigentlich abzählbar ist. Das stimmt natürlich, aber bei sehr vielen, nah zusammenliegenden Elementen vereinfacht man die Analyse, indem man die Menge als stetig annimmt. Man spricht hier von Quasistetigkeit.


Hat ein Zufallsvorgang ein konkretes Ergebnis erbracht, ist ein Ereignis eingetreten. Es gibt einfache Ereignisse, die lediglich ein Ergebnis enthalten, so genannte Elementarereignisse und es gibt komplexere Ereignisse, die sich aus mehreren Ergebnissen zusammensetzen. Ein Ereignis A ist immer eine Teilmenge der Ergebnismenge Ω.

Da Ereignisse Mengen sind, können alle Operationen der Mengenalgebra, die mit der Booleschen Algebra (auch Schaltalgebra) gleichgesetzt werden kann, angewendet werden. Grundlegende Operationen für Mengen der Booleschen Algebra sind - ("nicht" als Komplement), ∩ und ∪. Alle anderen Operationen können daraus hergeleitet werden.

Alle interessierenden Ereignisse fasst man nun in einer so genannten Ereignismenge (Ereignissystem) E zusammen. E ist also eine Menge von Teilmengen. Damit diese Menge mit der Booleschen Algebra bearbeitet werden kann, muss sie entsprechende Forderungen erfüllen:

  • Wenn das Ereignis A in E enthalten ist, muss auch sein Komplement \;_{\bar A} enthalten sein.
  • Wenn A und B enthalten sind, muss auch A ∪ B enthalten sein (Man kann ausrechnen, dass dann auch A ∩ B enthalten ist).
  • Es muss das "Null-Element" Ø enthalten sein (Das impliziert, dass auch "1-Element" Ω , welches das Komplement von Ø ist, enthalten ist).

Die umfassendste Ereignismenge ist die Potenzmenge P, die alle Teilmengen von Ω enthält.

Beispiel einer Potenzmenge:

Zufallsvorgang: Aus einer Urne mit einer blauen (b), einer roten (r) und einer gelben (g) Kugel wird eine Kugel gezogen. Wir interessieren uns für die Farbe der Kugel.

Ergebnismenge: Ω = {g, b, r}

Potenzmenge: P = {Ø, {r}, {g}, {b}, {r, g}, {r, b}, {g, b}, {r, g, b}}


Ausgehend von dieser Konstellation hat Kolmogorow mit seinen Axiomen ein Wahrscheinlichkeitsmaß konstruiert, d.h. eine Abbildung der Ergebnismenge Ω auf die Menge der reellen Zahlen im Intervall [0;1]:


F: Ω → R; A → P(A)


Eine Funktion P, die jedem Ereignis A aus E eine reelle Zahl zuordnet, heißt Wahrscheinlichkeit, wenn sie folgende Axiome erfüllt:


Axiome der Wahrscheinlichkeiten:

Gegeben sind zwei Ereignisse A,B ⊂ Ω.

  1.  P(A) \ge 0 \; . Nichtnegativität
  2.  P(\Omega) = 1 \; . Normiertheit
  3. P(A \cup B) = P(A) + P(B) \; , falls A und B disjunkt sind. Additivität


Dieses Axiomensystem kann nur auf endlich viele Ereignisse angewendet werden. Für unendlich viele Ereignisse Ai (i = 1, 2, ...) erhält man statt der endlichen Ereignismenge die σ-Algebra. Sie enthält alle geforderten Eigenschaften der Ereignismenge auf unendlich viele Ereignisse Ai ausgeweitet. Hier wird das 3. Axiom entsprechend angepasst:

3. Sind die Ereignisse Ai sämtlich paarweise disjunkt, ist bei ihrer Vereinigung
P(A_1 \cup A_2 \cup A_3...) = P(A_1) + P(A_2) + P(A_3) + ..., (σ-Additivität).

Berechnung der Wahrscheinlichkeit eines Ereignisses

Es müssen nun noch die Ereignisse mit Wahrscheinlichkeiten ausgestattet werden. Auf welche Weise das geschehen soll, ist in den Axiomen nicht angegeben. Es gibt hier verschiedene Verfahren. Man erhält schließlich die Wahrscheinlichkeitsverteilung.


Wie ordnen wir den Ereignissen am besten Wahrscheinlichkeiten zu?

Betrachten wir im Pizzaecken-Beispiel das Ereignis A: Mindestens ein Mittelstück. Es ist A = {RM, MR, MM}. A belegt in Ω drei von vier möglichen Ergebnissen, also ist die Wahrscheinlichkeit P(A) = 3/4. Diese Vorgehensweise entspricht der Klassischen Wahrscheinlichkeitsauffassung. Man bezeichnet sie als Symmetrieprinzip oder Prinzip nach LAPLACE:

Jedes Ergebnis ist gleich häufig. |A| ist die Zahl der Ergebnisse, die durch A belegt werden (Anzahl der günstigen Ergebnisse), |Ω| ist die Zahl aller möglichen Ergebnisse. Es ist

P(A) = \frac {|A|} {|\Omega|} =  \frac {3} {4}\;.

Das Symmetrieprinzip hat allerdings den Nachteil, dass es nicht bei allen Zufallsvorgängen angewendet werden kann, z.B. bei unendlich vielen Ergebnissen. Oft ordnet man auch Ergebnissen unterschiedliche Wahrscheinlichkeiten zu, z.B.

Zufallsvorgang: Wetter von heute.
Ergebnismenge Ω = {schön, schlecht}.
P("schön") = 0,6, P("schlecht") = 0,4.

Wie kommt man auf diese Wahrscheinlichkeiten 0,4 und 0,6? Man hat in diesem Fall etwa die Wetteraufzeichnungen der letzten 100 Jahre ausgewertet und hat festgestellt, dass der Anteil der schönen Tage 60 % betrug. Wir haben hier eine Anwendung der Statistischen Wahrscheinlichkeitsauffassung: Man führt ein Zufallsexperiment sehr oft durch. Mit steigender Zahl der Versuche nähert sich der Anteil der Versuche, die das Ereignis A hervorgebracht haben, der „wahren “ Wahrscheinlichkeit P(A), formal ausgedrückt

P(A) = \lim_{n \to \infty} \frac {n(A)}{n}\;,

mit n(A) als Zahl der Versuche, die das Ereignis A hervorgebracht haben. Man bezeichnet diesen Zusammenhang als Gesetz der großen Zahlen. Er liefert die Begründung, dass man unbekannte Wahrscheinlichkeiten mit Hilfe von empirischen Beobachtungen schätzen kann, wobei hier gilt: Viel hilft viel!


Bei manchen Fragestellungen versagen die beiden obigen Wahrscheinlichkeitskonzepte. Z.B. bei Ereignissen, die sehr selten auftreten, für die man also auch keine Versuchsreihen zur Verfügung hat, etwa die Wahrscheinlichkeit für den Erfolg eines neu auf dem Markt platzierten Produkts. Es möchte beispielsweise ein Unternehmen ein neues Spülmittel auf den Markt bringen. Es steht vor der Alternative, Fernsehwerbung einzusetzen oder nicht. Es ist mit den Ereignissen konfrontiert: Wenn Fernsehwerbung eingesetzt wird, ist das Spülmittel ein Erfolg/kein Erfolg. Wenn keine Fernsehwerbung eingesetzt wird, ist das Spülmittel ein Erfolg/kein Erfolg. Für diese vier Ereignisse sollen Wahrscheinlichkeiten ermittelt werden. Da man keine verlässlichen Informationen darüber hat, wird man aus dem Bauch heraus, eventuell unter Berücksichtigung ähnlicher Erfahrungen bestimmte Wahrscheinlichkeiten zuordnen. Dieses Vorgehen entspricht der Subjektiven Wahrscheinlichkeitsauffassung.


Da Ereignisse als Mengen definiert sind, kann man auch in vielen Fällen Ereignisse und ihre Wahrscheinlichkeiten in Venn-Diagrammen veranschaulichen. Die Wahrscheinlichkeit ist dann die Fläche der entsprechenden Menge. Manchmal ist es hilfreich, das Venn-Diagramm maßstabsgetreu auf kariertes Papier abzutragen, indem die Mengen rechteckig dargestellt werden.

Pizzeria-Beispiel zur Berechnung von Wahrscheinlichkeiten

Aufteilung der Gäste nach Bestellung
Aufteilung der Gäste nach Bestellung

Jetzt schauen wir uns in der Pizzeria etwas genauer um: Der Inhaber Carlo Pommodore ist ein mitleidiger Mensch und duldet auch arme Gäste, die sich nichts bestellen. Deshalb ist das Lokal mit seinen 50 Gästen eigentlich schon überfüllt. 20 Personen haben sich Pizza bestellt und 10 Lasagne. Das Essen ist so reichlich, dass niemand zwei Mahlzeiten bestellt. 40 Gäste trinken Wein und 20 Gäste trinken Mineralwasser, aber 15 trinken Wasser und Wein.

Wir ziehen zufällig einen Gast aus der fröhlich lärmenden Menge. Wie groß ist die Wahrscheinlichkeit, einen Pizza-Esser zu erhalten?

Wir haben |Ω| = 50 verschiedene Ergebnisse. Man kann davon ausgehen, dass jeder Gast die gleiche Wahrscheinlichkeit hat, gezogen zu werden.

Wir definieren nun die Ereignisse:

A: Der Gast isst Pizza; B: Der Gast isst Lasagne;
C: Der Gast trinkt Wein; D: Der Gast trinkt Wasser.

Nach dem Symmetrieprinzip ist

P(A) = \frac {|A|}{|\Omega|} =  \frac {20}{50}=  \frac {2}{5}\;,
P(B) =  \frac {10}{50}=  \frac {1}{5}\;,
P(C) =   \frac {4}{5} und P(D) =   \frac {2}{5}\;.


Wir können berechnen:

Wahrscheinlichkeit, dass jemand Wasser und Wein trinkt:

P(C \cap D) =  \frac {|C \cap D|}{|\Omega|} =  \frac {15}{50}=  \frac {3}{10}\;.


Wahrscheinlichkeit, dass ein zufällig ausgewählter Gast kein Wasser trinkt (\;_{\bar D}):

 P( \bar D) = \frac {\vert \bar D \vert} {\vert \Omega \vert} =  \frac {50-20} {50}

= 1- \frac {20} {50} = \frac {3} {5} = 1 - P(D)\;.


Anteil der Leute, die Wasser oder Wein trinken:

P(C \cup D) =  P(C) + P(D) - P(C \cap D)=\frac {40}{50} +  \frac {20}{50} - \frac {15}{50} =  \frac {45}{50}=\frac {9}{10}\;.

Diese Beziehung gilt immer für zwei Ereignisse!


Wahrscheinlichkeit, dass ein Gast Pizza oder Lasagne isst:

P(A \cup B) =  P(A) + P(B) - P(A \cap B)=\frac {20}{50} +  \frac {10}{50} -0 =  \frac {30}{50}\;.

Die Mengen A und B sind disjunkt.

Wahrscheinlichkeit, dass der zufällig ausgewählte Gast kein Wasser oder keinen Wein trinkt:

P(\bar C \cup  \bar D)=P( \bar C)+P( \bar D)-P(\bar C \cap  \bar D).

Hier ist die direkte Berechnung der Wahrscheinlichkeit analog zu oben umständlich. Man verwendet am besten die

DE MORGANsche Regel:

P( \bar C \cup \bar D) =  P( \overline{C \cap D}) =1-P(C \cap D) = 1-\frac {15}{50}  = \frac {35}{50}=0,7.

Was gelernt werden muss

Ein Ereignis A (A ⊂ Ω) :

0 \le P(A)\le 1 .
P(\bar A) = 1 - P(A) .
P(\empty) = 0 .


Zwei Ereignisse A und B (A,B ⊂ Ω) :

A und B sind im allgemeinen nicht disjunkt, also ist die Wahrscheinlichkeit, dass A oder B eintritt, nach dem Additionssatz für zwei Ereignisse:

P(A \cup B) = P(A)+P(B)-P(A \cap B) .

Falls A und B disjunkt sind, ist

P(A \cup B) = P(A)+P(B) .


DE MORGANsche Regeln:

P(\bar A \cup \bar B) = P(\overline{A \cap B})

und

P(\bar A \cap \bar B) = P(\overline{A \cup B})


Für drei Ereignisse Ai (i=1, 2, 3) aus Ω gilt analog zu obigen Überlegungen:

P(A_1 \cup A_2 \cup A_3) = P(A_1) + P(A_2) + P(A_3) -  P(A_1 \cap A_2) - P(A_1 \cap A_3) - P(A_2 \cap A_3) + P(A_1 \cap A_2\cap A_3) .


Mehrere Ereignisse Ai (i endlich oder unendlich):

Sind die Ereignisse Ai sämtlich paarweise disjunkt, ist bei ihrer Vereinigung

P(A_1 \cup A_2 \cup A_3...) = P(A_1) + P(A_2) + P(A_3) + ...

Übung

Zeigen Sie anhand eines Venn-Diagramms die Gültigkeit einer der DeMorganschen Regeln.



1.2.  Gemeinsame Wahrscheinlichkeit mehrerer Ereignisse
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 1 vom Inhaltsverzeichnis

Stochastische Unabhängigkeit

Ein häufiges Untersuchungsobjekt in der Statistik ist, ob verschiedene Ereignisse abhängig oder unabhängig voneinander sind, d.h. ob das Zustandekommen eines Ereignisses durch ein anderes begünstigt wird. So untersucht man beispielsweise in der Marktforschung, ob Status und Bildung eines Konsumenten die Ausgaben für eine bestimmte Zeitschrift beeinflussen.

Beispiel zum Begriff der stochastischen Unabhängigkeit

Grafik 1: Die Ereignisse: Studentin wohnt bei den Eltern - Die Studentin wohnt woanders
Grafik 1: Die Ereignisse: Studentin wohnt bei den Eltern - Die Studentin wohnt woanders

Eine umfangreiche Marketingstudie über Zahnputzgewohnheiten von Konsumenten hat ergeben, dass 50 % der Studierenden einer kleinen Hochschule bei ihren Eltern wohnen. Ebenso, dass 50 % der Studierenden Zahnpasta mit roten Streifen und 50 % andersfarbige Zahnpasta bevorzugen .

Betrachten wir den Zufallsvorgang: Eine Studentin kommt in einen Laden und kauft Zahnpasta. Es seien definiert die Ereignisse:

E: Die Studentin wohnt bei ihren Eltern.
R: Die Studentin kauft Zahnpasta mit roten Streifen.

Frage: Hat der Wohnort der Studentin einen Einfluss auf die Farbpräferenz?

Vermutlich nein, die Ereignisse E und R sind stochastisch unabhängig, d.h. in wahrscheinlichkeitstheoretischer Hinsicht unabhängig.

Wir interessieren uns zunächst für den Wohnort der Studierenden. In der Grafik 1 ist die Ergebnismenge nach dem Wohnort aufgeteilt.

Frage: Wieviel Prozent der Studierenden, die bei ihren Eltern wohnen, werden voraussichtlich Zahnpasta mit roten Streifen kaufen?

Da sich bei Unabhängigkeit der Ereignisse die Studierenden in Bezug auf ihre Farbpräferenz gleichmäßig auf die Wohnorte verteilen, werden wohl 50 % der Rotkäufer bei ihren Eltern wohnen und 50 % woanders. D.h. 50 % von 50 % der Studierenden wohnen bei ihren Eltern und bevorzugen rote Zahnpasta. Es gilt also:

P(R \cap E) = 0{,}5 \cdot 0{,}5 = 0{,}25.

Die Grafik 2 zeigt, wie sich bei Unabhängigkeit der Variablen Wohnort und Farbpräferenz die Wahrscheinlichkeiten der Farbpräferenz auf die Wohnorte aufteilen.

Ist nun beispielsweise P(E) = 40 % und P(R) = 60 %, ergibt sich bei Unabhängigkeit die Aufteilung wie in der Grafik 3, denn auch hier müssten 60 % der „Nesthocker” und 60 % der „Nestflüchter” gleichermaßen Zahnpasta mit roten Streifen kaufen.

Grafik 2: Die Ereignisse Wohnort und Farbe der Zahnpasta durchmischen sich
Grafik 2: Die Ereignisse Wohnort und Farbe der Zahnpasta durchmischen sich
Grafik 3: Die Ereignisse: Studentin wohnt bei den Eltern - Die Studentin wohnt woanders
Grafik 3: Die Ereignisse: Studentin wohnt bei den Eltern - Die Studentin wohnt woanders

Beispiel zum Begriff der stochastischen Abhängigkeit

Oben haben wir den Fall betrachtet, dass zwei Ereignisse unabhängig sind. Im Allgemeinen muss man aber davon ausgehen, dass Ereignisse, die man gemeinsam analysiert, abhängig sind.

Im Rahmen der Marketingstudie wurden Daten eines Gesundheitsamtes in Musterstadt verwendet, die die Zahngesundheit von Schulkindern betraf. Man weiß aus dieser Studie, dass 50 % der Schulkinder Karies haben und 50 % der Schulkinder sich regelmäßig die Zähne putzen.

Wir betrachten den Zufallsvorgang: Es wird ein Schulkind zufällig ausgewählt.

Wir definieren als Ereignisse

Z: Das Schulkind putzt sich regelmäßig die Zähne.
K: Das Schulkind hat Karies.
Grafik 4: Aufteilung von Zähneputzern und Kariesfällen
Grafik 4: Aufteilung von Zähneputzern und Kariesfällen

Ist nun

P(Z \cap K) > P(Z \cap \bar K )

oder  \quad P(Z \cap K) < P(Z \cap \bar K)?

Ist also die Wahrscheinlichkeit, ein Kind zu erhalten, das sich regelmäßig die Zähne putzt und Karies hat, größer als die Wahrscheinlichkeit, ein Kind zu erhalten, das sich regelmäßig die Zähne putzt und keine Karies hat, oder ist es umgekehrt, oder sind vielleicht die Wahrscheinlichkeiten gleich?

Es ist vermutlich

P(Z \cap K) < P(Z \cap \bar K),

denn Zähneputzen und Karies sind bekanntlich nicht unabhängig voneinander zu betrachten. Also sind Z und K stochastisch abhängige Ereignisse. Wir werden vermutlich eine Aufteilung der gemeinsamen Wahrscheinlichkeiten erhalten, die ähnlich der Grafik 4 ist. Besonders groß sind P(Z ∩ K) und P(Z ∩ K).

Die gemeinsamen Wahrscheinlichkeiten können allerdings nicht mit unseren Informationen bestimmt werden, sie hängen von der Stärke der Abhängigkeit ab.

Bei stochastisch abhängigen Ereignissen interessiert man sich häufig für das bedingte Auftreten eines Ereignisses, z.B. für die bedingte Wahrscheinlichkeit

P(K|\bar Z),

dass ein zufällig ausgewähltes Schulkind Karies hat, wenn man weiß, dass es sich nicht regelmäßig die Zähne putzt.

Bedingte Wahrscheinlichkeiten

Beispiel

Wie hängen Kariesfälle und Zahnputzgewohnheit zusammen?
Wie hängen Kariesfälle und Zahnputzgewohnheit zusammen?

Einige Jahre später wurde in der Grundschule von Musterdorf zu Forschungszwecken wieder an 200 Kindern eine Reihenuntersuchung zur Zahngesundheit durchgeführt. Jetzt putzten sich 60 % der Kinder regelmäßig die Zähne. Von diesen Kindern hatten 40 Karies. Bei den Zahnputzmuffeln hatten 60 Kinder Karies.

Wir wollen ein maßstabsgetreues Venndiagramm konstruieren. Jedes Kästchen steht für 5 Kinder. Es sind

P(Z) =  0{,}6; \qquad P(\bar Z) = 0{,}4;
P(Z \cap K) = 0{,}2; \qquad P(Z \cap \bar K) = 0{,}4;
P(\bar Z \cap K) = 0{,}3; \qquad P(\bar Z \cap \bar K) = 0{,}1.

Wir interessieren uns nun für die bedingte Wahrscheinlichkeit, dass ein Kind Karies hat, wenn bekannt ist, dass es sich die Zähne putzt:

P(K | Z).

In andere Worte gekleidet: Der Anteil der Kinder mit Karies an den Kindern, die sich regelmäßig die Zähne putzen.

Es gilt für die bedingte Wahrscheinlichkeit

P(K|Z)= \frac{P(K \cap Z)}{P(Z)}.

Wie ist diese Wahrscheinlichkeit zu verstehen?

Es werden zunächst alle Kinder, die sich regelmäßig die Zähne putzen, in die Aula geschickt. Aus diesen 120 Kindern wird nun zufällig eins ausgewählt. Mit welcher Wahrscheinlichkeit hat dieses Kind Karies? Wir betrachten also 120 zahnputzende Kinder, davon haben 40 Kinder Karies.

Genau diese Vorgehensweise ist das Prinzip der bedingten Wahrscheinlichkeiten!

Es ergibt sich: P(K|Z) = \frac{40}{120} = \frac{1}{3}.

Ein Drittel der zähneputzenden Kinder hat Karies: Dann haben natürlich zwei Drittel der zähneputzenden Kinder keine Karies. Wir sehen sogleich, dass die obige Rechnung die schon bekannte Formel

Wie teilen sich die Kariesfälle bezüglich der Zahnputzgewohnheiten auf?
Wie teilen sich die Kariesfälle bezüglich der Zahnputzgewohnheiten auf?
P(K|Z)= \frac{P(K \cap Z)}{P(Z)}= \frac{ \frac{40}{200}}{ \frac{120}{200}}= \frac{40}{120}= \frac{1}{3},

darstellt. Entsprechend erhalten wir

P(\bar K|Z)= \frac{P(\bar K \cap Z)}{P(Z)}= \frac{ \frac{80}{200}}{ \frac{120}{200}}= \frac{2}{3},
P(K|\bar Z)= \frac{P(K \cap \bar Z)}{P(\bar Z)}= \frac{\frac{60}{200}}{ \frac{80}{200}}= \frac{3}{4},
P(\bar K|\bar Z)= \frac{P(\bar K \cap \bar Z)}{P(\bar Z)}= \frac{ \frac{20}{200}}{ \frac{80}{200}}= \frac{1}{4}.

Vergleichen Sie das Venndiagramm mit dem vorhergehenden! Wieso unterscheiden sich beide Diagramme?

Übung

Es ist bekannt, dass die Aktienkurse des Unternehmens Dachs an 55% aller Börsentage gestiegen sind.

Ereignisse: K1: Der Kurs steigt am ersten Tag K2: Der Kurs steigt am zweiten Tag

Man hat folgende Gesetzmäßigkeit der Kursentwicklung festgestellt: In 40 % aller Beobachtungen stieg der Kurs am ersten Tag und am zweiten Tag, in 15 % der Beobachtungen stieg der Kurs am ersten Tag und fiel am zweiten Tag. Dagegen fiel in 15 % der Beobachtungen der Kurs am ersten Tag und stieg am zweiten Tag. An den restlichen Tagespaaren fiel der Kurs an beiden Tagen.

  1. Stellen Sie die gemeinsamen Wahrscheinlichkeiten im Venndiagramm grafisch dar.
  2. Sind die Ereignisse K1 und K2 stochastisch unabhängig? (Begründen Sie die Antwort formal mit Hilfe der Wahrscheinlichkeitstheorie.)
  3. Am heutigen Tag ist der Kurs gestiegen.
    • Mit welcher Wahrscheinlichkeit wird er morgen steigen (Gesucht: P(K2|K1))?
    • Mit welcher Wahrscheinlichkeit wird er dagegen fallen?
  4. Mit welcher Wahrscheinlichkeit wird der Kurs morgen steigen, wenn er heute gefallen ist?

Bayessches Theorem

Häufig liegen die Informationen über zwei Ereignisse nur als bedingte Wahrscheinlichkeiten vor. Wie kann man sie weiter verwenden?

Beispiel für zwei Ereignisse

Ein bekannter Vergnügungspark verbraucht täglich große Mengen an Glühbirnen für die Dekoration der Stände. Damit die Verbrauchskosten nicht so hoch werden, setzen sich die Glühbirnen nur zu 60% aus Markenware und zu 40 % aus markenfreier Ware zusammen. Aufgrund langjähriger Beobachtungen weiß man, dass von den Marken-Glühbirnen pro Monat 5% defekt werden. Jedoch werden von den markenfreien Glühbirnen monatlich 10% defekt.

Zunächst wollen wir das Gegebene grafisch (Grafik 5) darstellen: Wenn von den Markenglühbirnen 5 % defekt werden, bleiben 95% heil. 5% ist also Anteil der defekten Glühbirnen an den Markenglühbirnen, d.h. es handelt sich um die bedingte Wahrscheinlichkeit P(D|M) usw.

Grafik 5
Grafik 5

Der Betreiber des Vergnügungsparks braucht für die Kostenplanung des nächsten Sommers die Information, wie groß der Anteil der Markenglühbirnen an den defekten Glühbirnen ist, d.h. er sucht P(M|D). Das bedeutet: Alle defekten Glühbirnen eines Tages werden in einem Korb gesammelt. Es wird eine Glühbirne zufällig entnommen. Mit welcher Wahrscheinlichkeit erhält man eine Markenbirne?

Wir wissen, dass gilt:

P(M|D)= \frac{P(M \cap D)}{P(D)}.

Leider sind aber die Komponenten des Bruchs unbekannt. Wir werden nun eine Methode finden, sie doch zu berechnen.

Zunächst suchen wir den Zähler P(M ∩ D): Wir kennen P(D|M). Bekanntlicherweise berechnet es sich als

P(D|M)= \frac{P(M \cap D)}{P(M)}.

Also ist der gesuchte Zähler auch in P(D|M) enthalten und kann ganz einfach durch Auflösung der Gleichung berechnet werden als

 P(M \cap D) = P(D|M)P(M).

also

P(M \cap D)= 0{,}05 \cdot 0{,}6 = 0{,}03.

Jetzt fehlt noch der Nenner P(D). Betrachten wir das Venndiagramm Grafik 6. D setzt sich aus den Schnittmengen D ∩ M und D ∩ \;_{\bar M} zusammen.

Grafik 6
Grafik 6

Die gesamte Wahrscheinlichkeit von D ist also die Summe

P(D)=P(M \cap D) + P(\bar M \cap D).

eine Erkenntnis, die man auch als Satz der totalen Wahrscheinlichkeit bezeichnet, und das gibt, wie wir oben gesehen haben,

P(D) = P(D|M)P(M) + P(D|\bar M )P(\bar M),

in unserem Beispiel

P(D) = 0{,}05 \cdot 0{,}6 + 0{,}1 \cdot 0{,}4 = 0{,}07.

Es sind also 7% aller Glühbirnen defekt.

Die gesuchte bedingte Wahrscheinlichkeit ist nun

P(M|D) =  \frac{P(M \cap D)}{P(D)}=  \frac{P(D|M)P(M)}{P(D|M)P(M) + P(D|\bar M )P(\bar M)},

Diese Formel wird als Bayessches Theorem bezeichnet.

Die gesuchte Wahrscheinlichkeit beträgt

P(M|D) =  \frac{0{,}03}{0{,}07}= 0{,}4286.

Diese Wahrscheinlichkeit fällt deshalb so überraschend hoch aus, weil 50% mehr Markenbirnen als markenfreie verwendet werden. Entsprechend ist der Anteil der markenfreien Glühbirnen an den defekten 0,5714.

Wir wollen nun mehr als zwei Ereignisse analysieren.

Beispiel für mehr als zwei Ereignisse

Eine Spedition beschäftigt drei LKW-Fahrer, die Herren Ahorn, Behorn und Zehorn. Ahorn fährt 50% aller Fuhren, Behorn 20% und Zehorn 30%. Aus Erfahrung weiß man, dass Ahorn bei 10% aller Fahrten eine Beule verursacht, Behorn bei 15% aller Fahrten und Zehorn bei 20% aller Fahrten (Grafik 7).

Wir definieren die Ereignisse:

F1: Ahorn ist gefahren, F2: Behorn ..., F3: Zehorn ...
B: Eine Beule wurde gefahren.

Wir wollen zuerst das Gegebene festhalten: Wenn Ahorn in 10 % aller Fahrten eine Beule fährt, wickelt er die restlichen 90 % ohne Schaden ab usw.

Grafik 7
Grafik 7

Man interessiert sich für die Wahrscheinlichkeit, dass Ahorn gefahren ist, wenn wieder ein Mal eine Beule in einem LKW auftaucht, d.h. für P(F1|B).

Es ist wieder

P(F_1|B)= \frac{P(F_1 \cap B)}{P(B)}.

Nach dem Multiplikationssatz der Wahrscheinlichkeiten muss

P(F_1 \cap B)=P(B|F_1){P(F_1)}

sein, also

P(F_1 \cap B) = 0{,}1 \cdot 0{,}5 = 0{,}05.

Aber wie erhalten wir P(B)? Auch hier gilt wieder der Satz von der totalen Wahrscheinlichkeit, z.B.:

 P(F_1 \cap B) = P(B|F_1) \cdot P(F_1) .

Wir erhalten dann für P(B)

 P(B) = P(F_1 \cap B) + P(F_2 \cap B) + P(F_3 \cap B)
= P(B | F1)P(F1) + P(B | F2)P(F2) + P(B | F3)P(F3) ,

also

P(B) = 0{,}1 \cdot 0{,}5 + 0{,}15 \cdot 0{,}2 + 0{,}2 \cdot 0{,}3 = 0{,}05 + 0{,}03 + 0{,}06 = 0{,}14.

Unsere gesuchte Wahrscheinlichkeit beträgt

P(F_1|B)= \frac{P(F_1 \cap B)}{P(B)}= \frac{0{,}05}{0{,}14} = 0{,}3571.

Entsprechend sind

P(F_2|B)= \frac{0{,}03}{0{,}14} = 0{,}2143

und

P(F_3|B)=\frac{0{,}06}{0{,}14} = 0{,}4286.

Also hat Zehorn mit größter Wahrscheinlichkeit die Beule gefahren.

Wir fassen nun das Gelernte dieser Seite zusammen:

Theoretische Erkenntnisse

Zwei Ereignisse A und B aus Ω:

Sind zwei Ereignisse A und B stochastisch unabhängig, ist ihre gemeinsame Wahrscheinlichkeit gleich dem Produkt der Einzelwahrscheinlichkeiten:

P(A \cap B) = P(A) \cdot P(B).

Man beachte: Ereignisse sind grundsätzlich nicht als unabhängig zu betrachten!

Die bedingten Wahrscheinlichkeiten für A und B sind

P(A|B) =  \frac{P(A \cap B)}{P(B)} und  P(B|A)= \frac{P(A \cap B)}{P(A)}.

Allgemeiner Multiplikationssatz der Wahrscheinlichkeiten:

P(A \cap B) = P(A|B)P(B) = P(B|A)P(A).

Theorem von BAYES:

P(B|A) =  \frac{P(A \cap B)}{P(A)} =  \frac{P(A|B)P(B)}{P(A|B)P(B) + P(A| \bar B)P(\bar B)}.

Verallgemeinerung für m Ereignisse Ai (i =1,...,m):

Diese m Ereignisse zerlegen die Ergebnismenge, d.h. sie sind disjunkt und füllen Ω aus. Enthält Ω noch ein Ereignis B, so schneidet B mindestens ein Ereignis Ai, und B ist dann

P(B) = P(A_1 \cap B) + P(A_2 \cap B) + \dots + P(A_m \cap B).

Es gilt hier das Bayessche Theorem:

P(A_i|B) =  \frac{P(A_i \cap B)}{P(B)} = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^{m} P(B|A_j)P(A_j)}.

Übung:

Was ist P(A|B), falls A und B disjunkt sind?
Was ist P(A|B), falls A und B stochastisch unabhängig sind?

Lösungen der Übungen

Beispiel mit den Kursverläufen

1. Darstellung der verschiedenen Wahrscheinlichkeiten

  K1
0,55
\overline {K_1}
0,45
K2
0,55
aus Summe der Zeile
K_1 \cap K_2
0,4
 \overline K_1 
\cap K_2
0,15
 \overline K_2
0,45
aus Summe der Zeile
K_1 \cap \overline K_2
0,15
\overline K_1 \cap \overline K_2
0,3

2. Bei stochastischer Unabhängigkeit müsste die gemeinsame Wahrscheinlichkeit gleich dem Produkt der Einzelwahrscheinlichkeiten sein.

P(K_1 \cap K_2) = 0{,}4,

aber

P(K_1) \cdot P(K_2) = 0{,}55 \cdot 0{,}55 \ne 0{,}4.

Also sind die Ereignisse stochastisch abhängig.

3. Es ist

P(K_2|K_1) = \frac{K_1 \cap K_2}{K_1} = \frac{0{,}4}{0{,}55}

und

P(\overline K_2|K_1) = \frac{K_1 \cap \overline K_2}{K_1} = \frac{0{,}15}{0{,}55}

4.

P(K_2|\overline K_1) = \frac{\overline K_1 \cap K_2}{\overline K_1} = \frac{0{,}15}{0{,}45}

Übungen zu Theoretische Erkenntnisse

Lösung: 0; P(A).


1.3.  Kombinierte Zufallsvorgänge
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 1 vom Inhaltsverzeichnis

Kombinierte Zufallsvorgänge (insbesondere wiederholte oder mehrfache Versuche).


Allgemeines

Beispiele für kombinierte Zufallsvorgänge:

  • Eine Münze werfen, dann einmal würfeln.
  • Aus einer Urne ohne Zurücklegen 3 Kugeln ziehen.
  • Aus einer Lostrommel 10 Gewinner ziehen.
  • Gewinnspiel: Aus drei Toren eines wählen. Falls richtiges Tor, Wahl zwischen zwei Umschlägen.
  • 5x auf ein Ziel schießen.


Beispiel für die formale Definition

Es sollen nacheinander drei Zufallsexperimente durchgeführt werden. Die Wahrscheinlichkeit, dass beim ersten Versuch das Ereignis A, beim zweiten Versuch das Ereignis B und beim dritten Versuch das Ereignis C resultiert, wird bezeichnet als P(A(1) ∧ B(2) ∧ C(3)). A, B und C können verschiedenen Ergebnismengen entstammen! Der hochgestellte Index kann unter Umständen weggelassen werden.

Beispiel für unabhängige Versuche

Wir betrachten den Zufallsvorgang: Wir werfen zuerst eine Münze und würfeln dann.

Die beiden Versuche haben jeweils die Ergebnismenge

ΩM = {Wappen (W); Zahl (Z)} bzw. ΩW = {1,2,3,4,5,6}

Es ergibt sich für diesen kombinierten Versuch die Ergebnismenge Ω* als kartesisches Produkt von ΩM und ΩW :

Ω* = {(W; 1), (W; 2), (W; 3), ... , (W; 6), (Z; 1), (Z; 2), ..., (Z; 6)}.

Ω* hat 12 Elemente. Jedes Element hat die selbe Wahrscheinlichkeit, gezogen zu werden.


Wir suchen nun die Wahrscheinlichkeit für das Ereignis A*: Es wird erst Wappen geworfen und dann mindestens Fünf (F) gewürfelt:

Das Ereignis A* = W(1) ∧ F(2) belegt in Ω* 2 Elemente. Wir erhalten dann für die Wahrscheinlichkeit nach dem Symmetrieprinzip

P(A^{*}) = P(W^{(1)} \wedge F^{(2)})  =  \frac{2}{12}= \frac{1}{6}

Würfeln und Münzwurf sind jedoch stochastisch unabhängig und die Wahrscheinlichkeit muss nicht umständlich über die Ergebnismenge ermittelt werden. Also ist dann

P(A^*) = P(W^{(1)}) \cdot P(F^{(2)})  =  \frac{1}{2} \cdot \frac{2}{6}= \frac{1}{6}


Übung

Sie würfeln 3 mal. Mit welcher Wahrscheinlichkeit erhalten Sie zuerst zwei mal Sechs und dann höchstens Zwei?

Lösung: \frac{1}{108} .


Wiederholte Versuche können aber oft stochastisch abhängig sein.

Aus einer Urne mit 2 roten und 1 schwarzen Kugeln sollen zwei Kugeln ohne Zurücklegen gezogen werden.

Das zweite Ergebnis ist vom ersten natürlich nicht mehr unabhängig, weil sich je nach erster gezogener Kugel der Inhalt der Urne ändert. Es sei: R: eine rote Kugel wird gezogen und S: eine schwarze Kugel wird gezogen.

Wir wollen zuerst die Ergebnismenge der abhängigen Versuche analysieren. Nummerieren wir die beiden roten Kugeln in R1 und R2. Man kann dann bei zwei mal ziehen folgende Ergebnisse erhalten:

Ω* = {(R1; R2), (R1; S), (R2; R1), (R2; S), (S; R1), (S; R2)}

Ω* hat insgesamt 6 Ergebnisse.


Wir definieren das Ereignis A: Zuerst wird eine rote (R), dann eine schwarze Kugel (S) gezogen, also A = R(1) ∧ S(2).

Es gibt in Ω* zwei Ergebnisse, die A betreffen, also ist die Wahrscheinlichkeit

P(A) = \frac{2}{6}= \frac{1}{3}
\;.


Dieses Beispiel war einfach. Aber kann jetzt bei abhängigen Versuchen auch die Wahrscheinlichkeit für das kombinierte Ereignis unter Verzicht auf die vollständige Darstellung der Ergebnismenge bestimmt werden?

Bei stochastisch abhängigen Versuchen können die Wahrscheinlichkeiten nicht mehr ohne weiteres als Produkt der Einzelwahrscheinlichkeiten der Ereignisse bestimmt werden. Man kann aber sukzessiv den Multiplikationssatz der Ereignisse anwenden, der von den bedingten Wahrscheinlichkeiten bekannt ist: P(A∩B) = P(A)·P(B|A). Die Wahrscheinlichkeit, dass beim ersten Mal A und beim zweiten Mal B resultiert, ist also

P(A^{(1)} \wedge B^{(2)}) = P(A^{(1)}) \cdot  P(B^{(2)}|A^{(1)})


Es ist nach der obigen Formel

P(A)=P(R^{(1)} \cap S^{(2)}) = P(R(1))  \cdot  P(S^{(2)}|R^{(1)})  
= \frac {2}{3}  \cdot \frac {1}{2}  = \frac {1}{3}
  Beim ersten Versuch sind 3 Kugeln in der Urne; zwei sind rot Beim zweiten Versuch sind noch 2 Kugeln in der Urne; eine ist schwarz.  


Diese Regel läßt sich auch auf mehr als zwei Ereignisse erweitern:

Beispiel

Aus einer Urne mit 10 roten (R) und 5 schwarzen (S) Kugeln sollen ohne Zurücklegen nacheinander drei rote Kugeln gezogen werden. Die Wahrscheinlichkeit dafür ist

P(R^{(1)} \cap R^{(2)}\cap R^{(3)}) = \frac {10}{15} \cdot \frac {9}{14} \cdot \frac {8}{13}


Für mehr als zwei Ereignisse kann der allgemeine Multiplikationssatz der Wahrscheinlichkeiten angewendet werden. Er gilt auch für Ereignisse, die nicht aus einer gemeinsamen Ergebnismenge stammen:

P(A^{(1)} \wedge A^{(2)} \wedge \cdots \wedge A^{(m)}) = P(A^{(1)}) \cdot P(A^{(2)}|A^{(1)}) \cdot P(A^{(3)}|A^{(1)} \wedge A^{(2)}) \cdot ... \cdot P(A^{(m)}|A^{(1)} \wedge A^{(2)} \wedge  ...  \wedge  A^{(m-1)}).


Falls die A(i) (i = 1, 2, ... ,m) stochastisch unabhängig sind, ist natürlich wieder

P(A^{(1)} \wedge A^{(2)} \wedge \cdots  \wedge A^{(m)}) = P(A^{(1)}) \cdot P(A^{(2)}) \cdot \cdots \cdot P(A^{(m)}) .


Je nachdem, wie die Problemstellung ist, gibt es für die Berechnung von Wahrscheinlichkeiten kombinierter Zufallsvorgänge also verschiedene Möglichkeiten:

  1. Wir bestimmen alle Elemente von Ω*, falls das möglich und durchführbar ist. Dann wenden wir das Symmetrieprinzip an.
  2. Wir überlegen uns, beispielweise mit Hilfe der Kombinatorik, die Zahl der Elemente in Ω* und wenden dann das Symmetrieprinzip an.
  3. Wir verwenden den allgemeinen Multiplikationssatz der Wahrscheinlichkeiten und können vielleicht sogar stochastische Unabhängigkeiten ausnützen.

Urnenmodelle

Bei wiederholten Versuchen greift man häufig auf das so genannte Urnenmodell zurück: Dieses Modell funktioniert im Prinzip folgendermaßen: Eine Urne enthält N viele Kugeln, die sich voneinander unterscheiden lassen. Es werden n viele Kugeln gezogen. Man interessiert sich für die Zahl von Kugeln mit einem bestimmten Merkmal unter den n gezogenen.


Wir unterscheiden grundsätzlich

  • das Urnenmodell mit Zurücklegen: Eine Kugel wird gezogen und wieder zurückgelegt
  • das Urnenmodell ohne Zurücklegen: Eine Kugel wird gezogen und nicht wieder zurückgelegt


Viele Zufallsvorgänge, speziell die wiederholter Versuche, können auf das Urnenmodell zurückgeführt werden. Den Anfänger mag die Vorstellung, eine Kugel zu ziehen und wieder zurückzulegen, eigenartig anmuten, aber so kann man unabhängige Versuche modellieren: Betrachten wir den Zufallsvorgang, zwei mal zu würfeln, so kann man stattdessen auch aus einer Urne mit 6 verschiedenen Kugeln zwei mal jeweils eine ziehen und wieder zurücklegen.

Kombinatorik

Wir haben eine Urne mit N Kugeln gegeben. Es sollen n Kugeln gezogen werden. Wir befassen uns nun mit der Zahl der möglichen Ergebnisse bei wiederholten Versuchen. Hier müssen wir die verschiedenen Arten der Anordnung gezogener Kugeln im Urnenmodell berücksichtigen.


Zur Verdeutlichung dieser Aufgabenstellung betrachten wir eine Urne mit 3 Kugeln A, B, C. Es sollen n = 2 Kugeln gezogen werden. Wie viel verschiedene Paare würden wir erhalten?

Wir unterscheiden die Aufgabenstellungen


Mit Wiederholung - Mit Berücksichtigung der Reihenfolge

Die Buchstaben werden mit Zurücklegen gezogen; ein Buchstabe kann also mehrmals im Paar auftauchen. Es kommt auf die Reihenfolge der Buchstaben an. Es sind folgende verschiedene Paare möglich:

(A,A), (A,B), (A,C), (B,A), (B,B), (B,C), (C,A), (C,B), (C,C).

Es gibt insgesamt Nn viele verschiedene Ergebnisse, wie man leicht sieht.


Mit Wiederholung - Ohne Berücksichtigung der Reihenfolge

Es sind folgende verschiedene Paare möglich:

(A,A), (A,B), (A,C), (B,B), (B,C), (C,C).

Es gibt insgesamt  {N+n-1 \choose n} viele verschiedene Ergebnisse.

Ohne Wiederholung - Mit Berücksichtigung der Reihenfolge

Die Buchstaben werden ohne Zurücklegen gezogen; ein Buchstabe kann nur einmal im Paar auftauchen. Es sind folgende verschiedene Paare möglich:

(A,B), (A,C), (B,A), (B,C), (C,A), (C,B).

Es gibt insgesamt \frac {N!}{(N-n)!} viele verschiedene Ergebnisse.

Ohne Wiederholung - Ohne Berücksichtigung der Reihenfolge

Es sind folgende verschiedene Paare möglich:

(A,B), (A,C), (B,C).

Es gibt insgesamt  {N \choose n} viele verschiedene Ergebnisse.

Übungsbeispiel

Aus vier Personen Anna (A), Balduin (B), Cäcilie (C), Dagobert (D) werden zwei zum Geschirrspülen ausgelost, wobei eine Person abspült und eine abtrocknet.

Handelt es sich um ein Modell mit oder ohne Zurücklegen? Theoretisch wäre auch ein Modell mit Zurücklegen denkbar. Da das aber als unfair empfunden wird, gehen wir vom Modell ohne Zurücklegen (M. o. Z.) aus.


  • Mit welcher Wahrscheinlichkeit erwischt es zuerst Cäcilie und dann Balduin (Ereignis E)?

Hier kommt es auf die Reihenfolge der gezogenen „Kugeln“ an.


Methode a: Direkt über die Ergebnismenge

Die Ergebnismenge ergibt Ω* =

-

(A,B)

(A,C)

(A,D)

(B,A)

-

(B,C)

(B,D)

(C,A)

(C,B)

-

(C,D)

(D,A)

(D,B)

(D,C)

-

Jedes Paar hat die gleiche Wahrscheinlichkeit, gewählt zu werden. Es gibt insgesamt |Ω*| = 12 verschiedene Paare.

 P(E) = P((C,B)) = \frac {1} {12}


Methode b: Über die Zahl der Ergebnisse Es handelt sich um ein Modell ohne Zurücklegen mit Beachtung der Reihenfolge. Es gibt

 \frac {N!}{(N-n)!} = \frac {4!}{(4-2)!} = \frac {1 \cdot 2 \cdot 3 \cdot 4} {2} = 12

verschiedene Paare. Es gibt nur ein Ergebnis für das Ereignis E. Es ist also

 P(E) =  \frac {|E|} {|\Omega^{*}|} =  \frac {1} {12}


Methode c: Über den Multiplikationssatz der Wahrscheinlichkeiten

P(C^{(1)} \cap B^{(2)}) =  \frac {1} {4} \cdot \frac {1} {3}  =  \frac {1} {12}


  • Mit welcher Wahrscheinlichkeit müssen die zwei Männer abwaschen (Ereignis F)?


Methode a:

Es ist F = {(B,D), (D,B)}. Dieses Ereignis belegt in Ω* zwei Elemente. Also ist

 P(F) =  \frac {2} {12} =  \frac {1} {6}


Methode b:

M.o.Z, ohne Beachtung der Reihenfolge. Es gibt

 {N \choose n} = \frac {N!}{n!(N-n)!} = \frac {1 \cdot 2 \cdot 3 \cdot 4 \cdot }{(1 \cdot 2) (1 \cdot 2)} = 6

verschiedene Paare . Es ist also  P(F) =  \frac {1} {6}

Methode c:

 P(F) =  \frac {2} {4} \cdot \frac {1} {3} = \frac {1} {6}.



2.  Zufallsvariablen
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 2 vom Inhaltsverzeichnis

Beispiel zum Begriff der Zufallsvariablen

Die fränkische Druckerei Printzig nennt 10 multifunktionelle Hochleistungsdrucker ihr eigen. Drei Drucker sind von der Firma Alpha, zwei sind von Beta, vier von Gamma und einer stammt von der Firma Delta. Da die Drucker auch von Kunden bedient werden, fallen sie aufgrund unsachgemäßer Handhabung häufig aus. Man hat festgestellt, dass alle Drucker in gleichem Maße anfällig sind. Wegen der Gewährleistung wird bei jedem Ausfall ein Wartungstechniker der betreffenden Firma geholt. Die Kosten für die Wiederherstellung eines Druckers hängen vom Hersteller ab, wobei die Drucker der Firma Gamma in der Reparatur am billigsten sind.

Am liebsten ist es natürlich Herrn Printzig, wenn ein Drucker mit den geringsten Reparaturkosten ausfällt.

Überlegen wir:

Welche Ergebnismenge gehört zu dem Zufallsvorgang: Ein Drucker fällt zufällig aus?

Mit welcher Wahrscheinlichkeit entstehen Herrn Prinzig die geringsten Kosten?

Wir erhalten die Ergebnismenge

Ω = {A1, A2, A3, B1, B2, G1, G2, G3, G4, D1},

wobei z.B. B2 Drucker Nr. 2 der Firma Beta bedeutet. G sei das Ereignis, die geringsten Reparaturkosten zu haben. Jeder Drucker hat die gleiche Wahrscheinlichkeit, auszufallen. Dann ist nach dem Symmetrieprinzip

P(G) = \frac {\operatorname{Zahl \; der \; G-Drucker}}{\mathrm{Zahl \; aller \; Drucker}} = \frac {|G|} {|\Omega|} = \frac{4}{10} = 0,4 \ \;

Die Kosten für die Reparatur eines Druckers betragen je nach Hersteller wie folgt:

Hersteller Alpha Beta Gamma Delta
Kosten (Euro) 50 60 30 100


Überlegen wir: Wieviel muss Herr Printzig pro Ausfall im Durchschnitt bezahlen?

Ordnen wir nun der Ergebnismenge die entsprechenden Kosten zu:

A1 A2 A3 B1 B2 G1 G2 G3 G4 D1
\downarrow \downarrow \downarrow \downarrow \downarrow \downarrow \downarrow \downarrow \downarrow \downarrow
50 50 50 60 60 30 30 30 30 100

Ω hat 10 Ergebnisse und jedes Elementarereignis hat die Wahrscheinlichkeit 1/10. Jeder Drucker fällt dann auch mit der Wahrscheinlichkeit 1/10 aus. Die durchschnittlichen Reparaturkosten sind also

50 \cdot  \frac{1}{10} + 50 \cdot  \frac{1}{10} + 50 \cdot  \frac{1}{10} + 60 \cdot  \frac{1}{10} + 60 \cdot  \frac{1}{10} + ... + 100 \cdot  \frac{1}{10}  \;
=50 \cdot  \frac{3}{10} + 60 \cdot  \frac{2}{10} + 30 \cdot  \frac{4}{10} + 100 \cdot  \frac{1}{10} \;
= \frac{150}{10} + \frac{120}{10} + \frac{120}{10}+ \frac{100}{10} = \frac{490}{10} = 49 \text{ Euro} \;

Wir haben soeben eine Zufallsvariable konstruiert und zwar, indem wir allen Ergebnissen von Ω eine Zahl zugeordnet haben.

Den Durchschnitt konnten wir erst berechnen, nachdem wir die Drucker mit einer Zahl versehen hatten. Man kann je nach Interesse den Elementarereignissen beliebige Zahlen zuordnen. So könnten für die laufende Wartung wieder ganz andere Kosten gelten. Nur die Ergebnismenge ist festgelegt. Man könnte nun die Wahrscheinlichkeit berechnen, dass bei einem Ausfall 60 Euro fällig werden: Es gibt 10 Elementarereignisse und zwei davon entsprechen 60 Euro. Also beträgt diese Wahrscheinlichkeit 2/10.

Wir bezeichnen eine Zufallsvariable mit einem großen Buchstaben. Die Werte, die eine Zufallsvariable annehmen kann, nennt man Ausprägung. Eine bestimmte Ausprägung kennzeichnen wir mit einem Kleinbuchstaben. Nennen wir unsere Zufallsvariable "Reparaturkosten" X. Wir fassen jetzt die verschiedenen Wahrscheinlichkeiten der Zufallsvariablen X in einer Wahrscheinlichkeitstabelle zusammen. Herr Printzig hat 4 mal die "Chance", 30 Euro zu bezahlen, also ist die Wahrscheinlichkeit, dass X = 30 ist, gleich 4/10, usw.


Wahrscheinlichkeitstabelle:

  x1 x2 x3 x4
Ausprägung xi 30 50 60 100
Wahrscheinlichkeit f(xi) 0,4 0,3 0,2 0,1




Wahrscheinlichkeitsfunktion von X: Reparaturkosten
Wahrscheinlichkeitsfunktion von X: Reparaturkosten


f(x) bezeichnet die zur bestimmten Ausprägung x gehörende Wahrscheinlichkeit. Es ist beispielsweise

P(X = 60) = f(x3) = f(60) = 0,2,

aber

P(X = 70) = f(70) = 0,

denn für X = 70 existiert kein Ergebnis.

Die Summe aller Wahrscheinlichkeiten ist

\sum_{i=1}^m f(x_i) =1 \;

Man kann diese Wahrscheinlichkeiten auch grafisch als Stabdiagramm darstellen.

Man sieht, dass an den x-Stellen 30, 50, 60 und 100 die Wahrscheinlichkeitsfunktion die Werte 0,4, 0,3, 0,2 und 0,1 annimmt, aber an allen sonstigen Werten von x Null ist.

Wie groß ist nun aber die Wahrscheinlichkeit, dass Herr Printzig höchstens 50 Euro bezahlen muss?

P(X ≤ 50) = P(X = 30) + P(X = 50) = 0,4 + 0,3 = 0,7.

Das kann man auch aus der Graphik ersehen: Es ist die Summe der "Stäbchen" für x ≤ 50.

Mit welcher Wahrscheinlichkeit muss Herr Printzig weniger als 100 Euro zahlen? Gefragt ist hier nach P(X < 100). Ein Blick auf die Grafik verrät uns, dass gilt

P(X < 100) = P(X ≤ 60) = P(X = 30) + P(X = 50) + P(X = 60) = 0,4 + 0,3 + 0,2 = 0,9.

Wieviel ist nun P(30 < X ≤ 60)?

Man kann hier wieder die "Stäbchenmethode" anwenden:

P(30 < X ≤ 60) = 0,3 + 0,2 = 0,5.

Es gibt aber auch eine Rechenregel, die man mit Hilfe der Grafik leicht erkennt:

P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a),

also

P(30 < X ≤ 60) = P(X ≤ 60) - P(X ≤ 30) = 0,9 - 0,4 = 0,5.

Die Wahrscheinlichkeiten P(X ≤ a) einer bestimmten Ausprägung a von X bilden die Verteilungsfunktion von X, die die Wahrscheinlichkeitsverteilung von X in eindeutiger Weise beschreibt. Das ist eine Festlegung, die die Statistiker als sinnvoll erachten. Die Verteilungsfunktionen werden grossbuchstabig als F(a) bezeichnet. Meist wird statt a das Symbol x verwendet. Wir wollen die Verteilungsfunktion konstruieren, indem wir die obige Graphik zu Hilfe nehmen und für einzelne Stützwerte x die Verteilungsfunktion berechnen.

Wie groß ist z.B. P(X ≤ 10)? Es ist P(X ≤ 10) = F(10) = 0.

Ebenso sind P(X ≤ 15) = 0 und P(X ≤ 20) = 0.

Es ist also F(a) = 0 für alle Werte von a mit - ∞ < a < 30.

Als nächstes untersuchen wir P(X ≤ 30):

P(X ≤ 30) = F(30) = 0,4 . Ebenso sind P(X ≤ 30,1) = 0,4 und P(X ≤ 49,99999) = 0,4.

Die Verteilungsfunktion hat also den Wert F(a) = 0,4 für 30 ≤ a < 50.

Es gilt weiter: P(X ≤ 50), P(X ≤ 59), ... P(X< 60) sind, siehe Graphik: 0,4 + 0,3 = 0,7.

...

Schließlich ist die Wahrscheinlichkeit P(X ≤ 100) oder auch P(X ≤ 110), P(X ≤ 1000) usw... gleich 1.

Wir können die Wahrscheinlichkeiten zusammenfassen in der Verteilungsfunktion

Verteilungsfunktion von X: Reparaturkosten
Verteilungsfunktion von X: Reparaturkosten
P(X \le a) = F(a) = \begin{cases} 0 & \mbox{für } a < 30 \\ 
0,4 & \mbox{für } 30 \le a < 50 \\ 
0,7 & \mbox{für } 50 \le a < 60\\ 
0,9 & \mbox{für } 60 \le a < 100\\ 
1 & \mbox{für } a \ge 100 \end{cases}


Man sieht, dass diese Verteilungsfunktion grafisch eine Treppenfunktion darstellt. Die Punkte links an den Stufen zeigen an, dass der Funktionswert dieser Stufe genau zum Punkt a gehört.

Man kann hier auch die Wahrscheinlichkeiten der Grafik entnehmen, z.B. ist P(X ≤ 70) = 0,9.

Besonders interessiert man sich bei einer Zufallsvariable für zwei Kennwerte, Parameter genannt, die die Zufallsvariable genauer beschreiben.

Einer ist der durchschnittliche Wert, den die Zufallsvariable „auf lange Sicht“ annimmt, wenn der Zufallsvorgang „sehr oft“ durchgeführt wird. Dieser Parameter wird Erwartungswert EX genannt, also der Wert, den man langfristig erwarten kann. Wir hatten ihn schon oben ermittelt als

EX = 50 \cdot  \frac{3}{10} + 60 \cdot  \frac{2}{10} + 30 \cdot  \frac{4}{10} + 100 \cdot  \frac{1}{10} = 49 \;

die durchschnittlichen Reparaturkosten.

Ein weiterer Parameter ist die Streuung der X, ein Maß, wie stark die einzelnen Werte von X von EX abweichen, also 30-49, 50-49, 60-49, 100-49. Da z.B. 100 viel seltener auftritt als 30, gewichtet man auch diese Abweichungen mit ihrer Wahrscheinlichkeit. Eine Quadrierung sorgt dann einerseits dafür, dass sich positive und negative Abweichungen nicht aufheben, andererseits für eine überproportionale Berücksichtigung von besonders starken Abweichungen. Man erhält im Ergebnis als durchschnittliche quadratische Abweichung der X-Werte von EX die Varianz

 \operatorname{Var}\,X =	(30-49)^2 \cdot 0,4 + (50-49)^2 \cdot 0,3 + (60-49)^2 \cdot 0,2 + (100-49)^2 \cdot 0,1
 = 361 \cdot  0,4 + 1 \cdot  0,3 + 121 \cdot  0,2 + 2601 \cdot  0,1 = 429

wobei zu beachten ist, dass sich hier als Einheit Euro2 ergibt.

Die Wurzel der Varianz ist die Standardabweichung; man könnte sie salopp als mittlere Abweichung der Ausprägungen vom Durchschnitt bezeichnen. Sie beträgt in unserem Beispiel etwa 20,71.

Allgemeine Darstellung einer Zufallsvariablen

Gegeben ist ein Zufallsvorgang mit der Ergebnismenge Ω. Jedem Element aus Ω wird eine reelle Zahl x zugeordnet:

\Omega \to \R,\;\;\omega \mapsto X(\omega) .

Die Elemente von X sind Realisationen, Ausprägungen, Werte.

Es gilt für die Verteilung jeder Zufallsvariablen:

  • 0 ≤ F(x) ≤ 1 .
  • F(x) ist monoton steigend, also x1 < x2 → F(x1) ≤ F(x2)
  • F(x) ist für alle x ∈ \mathbb{R} definiert.
  • F(x) ist rechtsseitig stetig.
  • P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a).



2.1.  Diskrete Zufallsvariablen
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 2 vom Inhaltsverzeichnis

Eine Zufallsvariable ist diskret, wenn sie in jedem beschränkten Intervall nur endlich viele Ausprägungen annehmen kann. Die diskrete Zufallsvariable kann endlich oder abzählbar unendlich viele Werte xi ( i = 1,2,..., m bzw. i = 1,2,... ) annehmen.

Beispiele

  • Zahl der Schadensleistungen, die in einem Jahr bei einer Versicherung auftreten
  • Kinderzahl von Konsumenten
  • Zahl der defekten Kondensatoren in einem Fertigungslos

Ihre Wahrscheinlichkeitsfunktion ist

P(X = x) = f(x) = \begin{cases} f(x_i) & \mbox{für } x = x_i \\ 0 & \mbox{sonst} \end{cases}

Es gilt

\sum_{i=1}^m f(x_i) =1 \;.

Die Verteilungsfunktion P(X ≤ a) = F(a) ist die Summe aller Wahrscheinlichkeiten f(xi) für xi ≤ a.

Der Erwartungswert einer Zufallsvariablen ist der Durchschnitt des Auftretens ihrer Realisationen. Bei einer diskreten Zufallsvariablen beträgt er

EX =\sum_{i} x_i f(x_i)  \;,

falls EX existiert, d.h. nicht unendlich wird.

Die Varianz einer diskreten Zufallsvariablen berechnet sich als

\operatorname{Var}\,X =\sum_{i} (x_i-EX)^2 f(x_i)  \;.

Nach dem sog.Verschiebungssatz ist auch

\operatorname{Var}\,X =(\sum_{i}x_i^2 f(x_i))- (EX)^2 \;,

im Beispiel:

 \operatorname{Var}\,X = 30^2 \cdot 0{,}4 + 50^2 \cdot 0{,}3 + 60^2 \cdot 0{,}2 + 100^2 \cdot 0{,}1 - 49^2 
= 360 + 750 + 720 + 1000 - 2401 = 429\;.



2.2.  Stetige Zufallsvariablen
<< hoch zum Anfang vom Inhaltsverzeichnis
<< hoch zum Kapitel 2 vom Inhaltsverzeichnis

Beispiel eines Zeitungskiosks

Dichtefunktion

Dichtefunktion von X
Dichtefunktion von X

Die Zufallsvariable X: "An einem Tag verkaufte Menge an Tageszeitungen (in 100) eines Zeitungskiosks" lässt sich beschreiben mit der (in diesem Fall frei erfundenen) Dichtefunktion

 f(x)= \begin{cases} \frac {1}{4} x - \frac {3}{2} & \mbox{für } 6 \le x \le 8 \\
\frac {5}{2} - \frac {1}{4} x & \mbox{für } 8 < x \le 10 \\
0 & \mbox{sonst} \end{cases}
 \ .

Diese Zufallsvariable X ist nun stetig, d.h. sie hat in jedem Intervall a ≤ X ≤ b unendlich viele Ausprägungen.

Eine Analyse der Grafik zeigt, dass diese Dichtefunktion symmetrisch bezüglich 8 ist, was die Berechnung von Wahrscheinlichkeiten sehr erleichtert.

W', dass X höchstens 7 ist
W', dass X höchstens 7 ist

Wir wollen nun die Wahrscheinlichkeit bestimmen, dass an einem Tag höchstens 700 Zeitungen verkauft werden, also P(X ≤ 7). Wenn wir analog zu der diskreten Zufallsvariablen vorgehen, wo wir "die Summe der Stäbchen" ermittelten, müsste die Wahrscheinlichkeit P(X ≤ a) hier "unendlich viele Stäbchen", also eine Fläche ergeben.

Wir berechnen die Dreiecksfläche mit Hilfe der Geometrie:

P(X \le 7) = \mbox{Breite des Dreiecks } \cdot \mbox{Höhe des Dreiecks }  \cdot \frac {1}{2}
= 1 \cdot \frac {1}{4} \cdot \frac {1}{2} =  \frac {1}{8} \ .

Es ist übrigens auch

 P(X < 7)= \frac {1}{8} \ ,

denn bei einer stetigen Zufallsvariablen ist P(X = x) = 0, da es als unmöglich angesehen wird, genau einen bestimmten Wert x zu "treffen". Man betrachtet also bei einer stetigen Zufallsvariablen nur Wahrscheinlichkeiten der Art P(X ≤ x) o.ä.


Es ist P(X ≤ 8) = 0,5, wie man der Grafik sofort entnimmt.


W', dass X mindestens 9 ist
W', dass X mindestens 9 ist

 P(X \ge 9) =  \frac {1}{8} \ , denn wie man sieht, ist die Fläche von P(X ≥ 9) genau gleich der Fläche P(X ≤ 7).


Außerdem ist  P(X \le 9) =1-P(X \ge 9)= \frac {7}{8} \ .


Bestimmen wir die Wahrscheinlichkeit eines Intervalls. Es ergibt

P(8 < X ≤ 9) = P(X ≤ 9) - P(X ≤ 8) = 0,875 - 0,5 = 0,375,

wenn man die Rechenregel für P(a < X ≤ b) anwendet.


W', dass X höchstens 9 ist
W', dass X höchstens 9 ist
W', dass X zwischen 8 und 9 liegt
W', dass X zwischen 8 und 9 liegt

Verteilungsfunktion

Man kann Wahrscheinlichkeiten von X auch als Verteilungsfunktion darstellen. Sucht man die Wahrscheinlichkeit P(X a), muss also das Integral von -∞ bis a berechnet werden:


P(X \le a)= F(a) =  \int_ {-\infty}^a f(x) dx

Bei unserem Beispiel sind wir mit verschiedenen Bereichen konfrontiert:

1. a < 6

 P(X \le a)= F(a) = \int_{-\infty}^a 0 \, dx = 0

2. 6 ≤ a ≤ 8

F(a) = \int_{-\infty}^6 0 \, dx + \int_{6} ^a \left( \frac {1}{4} x - \frac {3}{2} \right) dx = 0 + \left[ \frac {x^2}{8} - \frac {3}{2} x \right]_6^a = \frac {a^2}{8} - \frac {3}{2}a - \left( \frac {6^2}{8} - \frac {3}{2}6 \right) = \frac {a^2}{8} - \frac {3}{2}a +  \frac {9}{2}

3. 8 < a ≤ 10

F(a) = \int_{-\infty}^{6} 0 \, dx + \int_{6}^{8} \left( \frac {1}{4} \cdot x - \frac {3}{2} \right) dx + \int_{8}^a \left( \frac {5}{2} - \frac {1}{4} x \right) dx  = 0 + \left[ \frac {x^{2}}{8} - \frac {3}{2} \cdot x \right]_6^{8} +  \left[ \frac {5} {2} \cdot x - \frac {x^{2}} {8} \right]_{8}^{a} =
 \left( \frac {64}{8} - \frac {3}{2} \cdot 8 \right) - \left(\frac {36}{8} - \frac {3}{2} \cdot 6 \right) + \left(\frac {5}{2} \cdot a - \frac {a^2}{8} \right) - \left(\frac {5}{2} \cdot 8 - \frac {64}{8} \right) = -\frac {a^2}{8} + \frac {5}{2} \cdot a -  \frac {23}{2}

4. a > 10

 \ F(a) = 1

Verteilungsfunktion von X

P(X \le a)= F(a)=
\begin{cases} 0 & \mbox {für } a<6 \\
\frac {a^2}{8} - \frac {3}{2} a + \frac {9}{2} & \mbox {für } 6 \le a \le 8 \\
-\frac {a^2}{8} + \frac {5}{2} a -  \frac {23}{2} & \mbox {für } 8 < a \le 10 \\
1 & \mbox {sonst} \end{cases}


Wir erhalten beispielsweise durch Einsetzen in F(x)


P(X \le 7)= F(7) =  \frac {7^2}{8} - \frac {3}{2} \cdot 7 +  \frac {9}{2} =\frac {1}{8} 
\ ,

P(X \le 9)= F(9) = -\frac {9^2}{8} + \frac {5}{2} \cdot 9 -  \frac {23}{2} =\frac {7}{8} 
\ .


Quantil

Das Quantil x(p) gibt die Ausprägung x an, die zu einem bestimmten Verteilungswert p = F(x) gehört.

Beispiele

x(0,875) = 9, d.h. zur Wahrscheinlichkeit 0,875 gehört der x-Wert 9.

Ebenso ist x(0,5) = 8. D.h. 8 ist der Median, also wurden an 50% aller Tage höchstens 800 Zeitungen verkauft.


Übung

Bestimmen Sie P(6,25 < X < 8,75). Mit welcher Wahrscheinlichkeit wurden an den 50% besten Tagen mindestens 900 Zeitungen verkauft? Gesucht ist hier P(X > 9| X > 8).

Was Sie speziell über stetige Zufallsvariablen wissen sollten

Eine stetige Zufallsvariable kann in jedem beschränkten Intervall unendlich viele Ausprägungen annehmen. Ihre Verteilung lässt sich durch eine Dichtefunktion f(x) beschreiben. f(x) ist keine Wahrscheinlichkeit, sondern eine Dichte.

  • Die Verteilungsfunktion ist

P(X \le a)= F(a) =  \int_{-\infty}^{a}f(x)dx
  • Es gilt: P(X = a) = 0.
  • Wegen P(X = a) = 0 ist P(X ≤ a) = P(X < a) und P(X > a) = P(X ≥ a)
  • Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist.
  • Die Dichtefunktion f(a) kann auch größer als 1 werden.
  • Ausgehend von P(X \le x) = p ist das p-Quantil x(p) der Wert x, der zu einer gegebenen Wahrscheinlichkeit p gehört. Speziell x(0,5) ist der Median.
  • Der Erwartungswert einer stetigen Zufallsvariablen ist analog zu oben

EX =  \int_{-\infty}^{\infty} x \cdot f(x) dx
, falls EX existiert, d.h. nicht unendlich wird.
  • Ihre Varianz ist

\operatorname{Var}\,X =  \int_{-\infty}^{\infty} (x-EX)^2 \cdot f(x) dx

wobei auch hier der Verschiebungssatz angewendet werden kann:


\operatorname{Var}\,X =  \left(\int_{-\infty}^{\infty} x^2  f(x) dx \right) - (EX)^2

Bei symmetrisch verteilten Zufallsvariablen ist im Allgemeinen der Erwartungswert der Zufallsvariablen gleich dem Median.

In unserem Beispiel ist also EX = 8, denn die Verteilung ist symmetrisch. Das bedeutet, dass im Durchschnitt pro Tag 800 Zeitungen umgesetzt werden.

Wendet man die gegebene Formel für EX auf unser Beispiel an, so erhält man:


\operatorname{E}\,X = \int_{-\infty}^{6} x \cdot 0 \, dx + \int_{6}^{8} x \cdot \left(\frac{x}{4} - \frac{3}{2} \right) dx + \int_{8}^{10} x \cdot \left(\frac{5}{2} - \frac{x}{4} \right) dx + \int_{10}^{\infty} x \cdot 0 \, dx


= \left[\frac{x^3}{12} - \frac{3x^2}{4}\right]_6^8 + \left[\frac{5x^2}{4} - \frac{x^3}{12}\right]_8^{10}=8

Entsprechend gilt für die Varianz:


\operatorname{Var}\,X = \left( \int_{-\infty}^{6} x^2 \cdot 0 \ dx + \int_{6}^{8} x^2 \cdot \left(\frac{x}{4} - \frac{3}{2} \right) dx + \int_{8}^{10} x^2 \cdot \left(\frac{5}{2} - \frac{x}{4} \right) dx + \int_{10}^{\infty} x^2 \cdot 0 \, dx \right) - 64


= \left[\frac{x^4}{16} - \frac{3x^3}{6}\right]_6^8 + \left[\frac{5x^3}{6} - \frac{x^4}{16}\right]_8^{10} - 64 = \frac{2}{3} \approx 0{,}7

Beispiel: Eingehende Anrufe bei Fernsehabstimmungen

Verteilung von lnx - ln2
Verteilung von lnx - ln2

Während einer Fernsehsendung wurden die Zuschauer aufgefordert, telefonisch abzustimmen. Die Leitungen wurden um 14 Uhr freigeschaltet. Dann konnten die Zuschauer bis ca. 17.30 Uhr anrufen. Für die eintreffenden Anrufe ergab sich näherungsweise die Verteilungsfunktion der stetigen Zufallsvariablen X: Zeitpunkt, an dem ein Anruf eintrifft, wie folgt:

 F(x) =
\begin{cases} 
0 & \mbox{für } x < 2 \\
\ln x - \ln 2 & \mbox{für } 2 \le x \le 2e \\
1 & \mbox{für } x > 2e
\end{cases}

Sei jetzt \omega\in\Omega ein beliebiger Anruf.

Wir wollen nun bestimmen

  1. die Dichtefunktion f(x)
  2. die Wahrscheinlichkeit dass bis höchstens 15 Uhr der Anruf ω eingegangen ist.
  3. die Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf ω eingegangen ist.
  4. die Uhrzeit, zu der 90% aller Anrufe eingetroffen sind
  5. den Median
  6. den Erwartungswert
  7. die Varianz

Die Grafik der Verteilung F(X) zeigt den typischen Verlauf einer logarithmischen Funktion.

1. Dichtefunktion f(x)

Dichtefunktion von lnx - ln2
Dichtefunktion von lnx - ln2

Die Dichtefunktion ist immer die erste Ableitung der Verteilungsfunktion: f(x) = F'(x).

Unsere Verteilungsfunktion ist abschnittsweise definiert. Wir müssen bereichsweise ableiten (dass die Funktion an den Knickstellen möglicherweise nicht differenzierbar ist, tut im Allgemeinen nicht weh, Hauptsache, die Fläche ergibt 1).

Bereich x < 2:  F(x) = 0 \to f(x) = 0
Bereich 2 ≤ x ≤ 2e: F(x) = \ln x - \ln 2 \to f(x) = \frac{1}{x}
Bereich x > 2e: F(x) = 1 \to f(x) = 0

Wir wollen jetzt f(x) noch ordentlich angeben:

 f(x) =
\begin{cases} 
\frac{1}{x} & \mbox{für } 2 \le x \le 2e \\
0 & \mbox{sonst}
\end{cases}

Betrachten wir mal die Dichtefunktion: Man sieht hier deutlich, dass die meisten Anrufe in den ersten 1,5 Stunden nach Freischalten eingelaufen sind. Danach flaut die Zahl der Anrufe allmählich ab.


2. Wahrscheinlichkeit, dass bis höchstens 15 Uhr der Anruf ω eingegangen ist

Gesucht ist P(X ≤ 3). In der Dichtefunktion ist das die Fläche von 2 bis 3. Diese Fläche ist das Selbe wie der Funktionswert F(3). Wir erhalten

P(X \le 3) = \ln 3 - \ln 2 = 1{,}0986 - 0{,}6931 =0{,}4055

Man kann also sagen, dass in einer Stunde ab Freischalten der Leitungen 40% der Anrufe eingegangen sind.

Fläche der Dichtefunktion für P(X<3)
Fläche der Dichtefunktion für P(X<3)
Verteilungsfunktion für P(X<3)
Verteilungsfunktion für P(X<3)
Fläche der Dichtefunktion für P(3 < X < 4)
Fläche der Dichtefunktion für P(3 < X < 4)

3. Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf ω eingegangen ist

Gesucht ist hier P(3 ≤ X ≤ 4). Wir wissen schon, dass speziell für stetige Zufallsvariablen (bei diskreten muss man noch zwischen < und ≤ unterscheiden) gilt: P(3 ≤ X ≤ 4) = P(X ≤ 4) - P(X ≤ 3). Wir erhalten dann

 P(3 \le X \le 4) \ = F(4) - F(3)
  \ = \ln4 -\ln2 - (\ln3 - \ln2)
  \ = \ln4 - \ln3
   = \ 1{,}3863 - 1{,}0986 = 0{,}2877

4. Uhrzeit, zu der 90% aller Anrufe eingetroffen sind

Hier ist die Wahrscheinlichkeit 0,9 gegeben und wir suchen den X-Wert, der zu dieser Wahrscheinlichkeit passt, also P(X ≤ ?) = 0,9. Gesucht ist also das 90%-Quantil. Wir bilden den Ansatz

F(?) = 0,9 oder etwas professioneller: F(x(0,9)) = 0,9, also

\ln x - \ln 2 = 0{,}9 \to \ln x = \ln 2 + 0{,}9 \to x = \exp(\ln 2 + 0{,}9) \approx 4{,}91,

d.h. etwa um 16.55 waren 90% der Anrufe eingegangen.


5. Median

Der Median ist das 50%-Quantil. Es ergibt sich also analog zu oben:

\ln x - \ln 2 = 0{,}5 \to x \approx 3{,}30


6. Erwartungswert

Der Erwartungswert