Statistik: Prinzip des Konfidenzintervalls

Aus Wikibooks

Beispiel mit Absatz von Kaffeepaketen

Lage einer Schätzung von μ

Beispiel:

Eine Kaffeerösterei möchte eine neue Röstanlage anschaffen. Um beurteilen zu können, ob die Firma den aufzunehmenden Kredit tilgen kann, braucht sie Informationen über den durchschnittlichen monatlichen Absatz an Kaffeepaketen. Pro Monat muss die Firma 20.000 € Annuität zahlen. Zusammen mit den Produktionskosten sollte sie im Durchschnitt auf einen Absatz von 100.000 Kaffeepaketen im Monat kommen. Die Frage ist nun, wird sie es schaffen?

Plausible Überlegungen zur Schätzung

Der durchschnittliche monatliche Absatz von Kaffeepaketen ist unbekannt. Wie könnte man den Durchschnitt ermitteln? Man könnte eine Stichprobe mit z.B. n = 50 Beobachtungen ziehen und versuchen, aus dem arithmetischen Mittel x auf den durchschnittlichen monatlichen Absatz der Grundgesamtheit zu schließen. Ist die Stichprobe groß genug, kann man vermuten, dass der Durchschnitt EX in der Grundgesamtheit, hier μ, in der Nähe von x liegen müsste. Meistens wird x in der Nähe von μ liegen, da aber x die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fällen x auch extrem weit von μ weg liegen, so daß man dann μ verkehrt einschätzt.

95%-Intervall des durchschnittlichen monatlichen Absatzes

Wir betrachten nun den monatlichen Absatz von Kaffeepaketen (in 1000). Wir bezeichnen ihn als Zufallsvariable X. Es soll der monatliche durchschnittliche Absatz der Kaffeepäckchen geschätzt werden. Bekannt ist lediglich, dass die Zahl der verkauften Kaffeepakete normalverteilt ist mit einer Varianz 200 [10002 Stück2].

Wie sollen wir nun μ eingrenzen? Wir könnten etwa ein Intervall bestimmen, in dem z.B. 95% aller möglichen x-Werte liegen, also

Damit man dieses Intervall berechnen kann, müssen Informationen über die Verteilung von X verfügbar sein. Es soll eine Stichprobe von n = 50 gezogen werden, d.h. es werden die verkauften Kaffeepakete der letzten 50 Monate erfasst:

Verteilung des Merkmals und der Schätzfunktion

Vergleich: Normalverteilung der Zufallsvariablen Absatz X und der Zufallsvariablen Durchschnittlicher Absatz X

Die Zufallsvariable X in der Grundgesamtheit soll normalverteilt sein mit dem Durchschnitt EX = μ und der Varianz VarX = σ2. Die Varianz soll bekannt sein.

Es wird eine Stichprobe vom Umfang n gezogen. Der Stichprobendurchschnitt X ist selbst eine Zufallsvariable und ist als lineare Transformation von X wiederum normalverteilt, und zwar mit den Parametern

und

Hier ist

.

Herleitung des Intervalls

Ober- und Untergrenze der standardnormalverteilten Zufallsvariablen Z

Ausgegangen wird von

Untergrenze u und Obergrenze o sollen nun bestimmt werden. Wir standardisieren zunächst

so dass sich analog zu oben

ergibt. zo ist hier das 0,975-Quantil der Standardnormalverteilung. Ein Blick in die Normalverteilungstabelle verrät uns, dass der z-Wert, der zur Wahrscheinlichkeit 0,975 gehört, 1,96 ist.

(1-α/2)-Quantil der Standardnormalverteilung

Wir können jetzt das entsprechende Intervall für Z

angeben. Die Ungleichung wird bezüglich μ aufgelöst:

Dieses Intervall wird Zufallsintervall genannt, weil es von einer Zufallsvariablen () gebildet wird. Wir schreiben jetzt dieses Intervall mit Symbolen:

Breite des Konfidenzintervalls

Wir bezeichnen als Konfidenzkoeffizient. dagegen ist die Irrtumswahrscheinlichkeit oder das Signifikanzniveau.


Die Breite des Intervalls ist hier

Also schwankt eine X-Schätzung für μ mit einer 95%igen Wahrscheinlichkeit in einem Intervall der Breite von 7840 Kaffeepaketen, d.h. μ befindet sich mit einer 95%igen Wahrscheinlichkeit in diesem Intervall.

x liegt sehr weit vom wahren μ weg

Es kann aber passieren, dass die Schätzung x extrem daneben liegt. In der Grafik wurde mit x daneben gegriffen; dieser Fall wird durch diese restlichen 5% abgedeckt.

Konkretes 95%-Konfidenzintervall

Es liegt nun ein konkreter Schätzwert von x = 98 vor. Wir erhalten das Konfidenzintervall

Entscheidung: μ kann bei einer Wahrscheinlichkeit von 95% unter 100 liegen, also kann der mittlere Umsatz unter 100.000 liegen. Deshalb sollte die Firma von dieser Investition absehen.

Was wäre, wenn man erhalten hätte? Dann wäre eine dauerhafte Liquidität zu vermuten.

Einfluss der Varianz auf das Konfidenzintervall

Was wäre, wenn σ2 statt 200 den Wert 5000 hätte? Dann wäre

Wir erhielten das Konfidenzintervall

Das hieße, der wahre durchschnittliche Absatz läge mit einer Wahrscheinlichkeit von 95% zwischen 78 400 und 117 600 Päckchen. Dieses Intervall wäre eine sehr grobe Abschätzung. Mit so etwas kann man nicht mehr vernünftig planen.

Also wird das Konfidenzintervall mit steigender Varianz breiter, die Schätzungen werden schlechter, ungenauer. Hier könnte man als Abhilfe den Stichprobenumfang erhöhen.

Mindest erforderlicher Stichprobenumfang

Wie groß muss die Stichprobe mindestens sein, damit die Breite des Konfidenzintervalls höchstens 10 ist?

Die Breite des Konfidenzintervalls ist

Man müsste also mindestens n = 769 Monate erheben, über 64 Jahre!

90%-Konfidenzintervall

Es soll nun ein 90%-Konfidenzintervall für μ bestimmt werden.

Wenn die vorgegebene Wahrscheinlichkeit zwischen zwei Quantile fällt, rückt man auf das äußere Quantil
90%-Konfidenzintervall

Dieses Intervall ist schmaler als das 95%-Intervall.