Statistik: Prinzip des Konfidenzintervalls

Beispiel mit Absatz von Kaffeepaketen

Beispiel:

Eine Kaffeerösterei möchte eine neue Röstanlage anschaffen. Um beurteilen zu können, ob die Firma den aufzunehmenden Kredit tilgen kann, braucht sie Informationen über den durchschnittlichen monatlichen Absatz an Kaffeepaketen. Pro Monat muss die Firma 20.000 € Annuität zahlen. Zusammen mit den Produktionskosten sollte sie im Durchschnitt auf einen Absatz von 100.000 Kaffeepaketen im Monat kommen. Die Frage ist nun, wird sie es schaffen?

Plausible Überlegungen zur Schätzung

Der durchschnittliche monatliche Absatz von Kaffeepaketen ist unbekannt. Wie könnte man den Durchschnitt ermitteln? Man könnte eine Stichprobe mit z.B. n = 50 Beobachtungen ziehen und versuchen, aus dem arithmetischen Mittel x auf den durchschnittlichen monatlichen Absatz der Grundgesamtheit zu schließen. Ist die Stichprobe groß genug, kann man vermuten, dass der Durchschnitt EX in der Grundgesamtheit, hier μ, in der Nähe von x liegen müsste. Meistens wird x in der Nähe von μ liegen, da aber x die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fällen x auch extrem weit von μ weg liegen, so daß man dann μ verkehrt einschätzt.

95%-Intervall des durchschnittlichen monatlichen Absatzes

Wir betrachten nun den monatlichen Absatz von Kaffeepaketen (in 1000). Wir bezeichnen ihn als Zufallsvariable X. Es soll der monatliche durchschnittliche Absatz der Kaffeepäckchen geschätzt werden. Bekannt ist lediglich, dass die Zahl der verkauften Kaffeepakete normalverteilt ist mit einer Varianz 200 [1000² Stück²].

Wie sollen wir nun μ eingrenzen? Wir könnten etwa ein Intervall bestimmen, in dem z.B. 95% aller möglichen x-Werte liegen, also

P({\bar {x}}_{u}\leq {\bar {X}}\leq {\bar {x}}_{o})=0,95\;.

Damit man dieses Intervall berechnen kann, müssen Informationen über die Verteilung von X verfügbar sein. Es soll eine Stichprobe von n = 50 gezogen werden, d.h. es werden die verkauften Kaffeepakete der letzten 50 Monate erfasst:

{\bar {X}}={\frac {1}{50}}\sum _{i=1}^{50}X_{i}\;.

Verteilung des Merkmals und der Schätzfunktion

Vergleich: Normalverteilung der Zufallsvariablen Absatz X und der Zufallsvariablen Durchschnittlicher Absatz X

Die Zufallsvariable X in der Grundgesamtheit soll normalverteilt sein mit dem Durchschnitt EX = μ und der Varianz VarX = σ². Die Varianz soll bekannt sein.

Es wird eine Stichprobe vom Umfang n gezogen. Der Stichprobendurchschnitt X ist selbst eine Zufallsvariable und ist als lineare Transformation von X wiederum normalverteilt, und zwar mit den Parametern

E{\bar {X}}=\mu

und

var{\bar {X}}={\frac {\sigma ^{2}}{n}}\;.

Hier ist

{\frac {\sigma ^{2}}{n}}={\frac {200}{50}}=4

.

Herleitung des Intervalls

Ober- und Untergrenze der standardnormalverteilten Zufallsvariablen Z

Ausgegangen wird von

P\left({\bar {x}}_{u}\leq {\bar {X}}\leq {\bar {x}}_{o}\right)=0,95\;.

Untergrenze u und Obergrenze o sollen nun bestimmt werden. Wir standardisieren zunächst

Z={\frac {{\bar {X}}-\mu }{\sqrt {\frac {\sigma ^{2}}{n}}}}={\frac {{\bar {X}}-\mu }{\sqrt {4}}}\;,

so dass sich analog zu oben

P\left(z_{u}\leq Z\leq z_{o}\right)=0,95

ergibt. z_o ist hier das 0,975-Quantil der Standardnormalverteilung. Ein Blick in die Normalverteilungstabelle verrät uns, dass der z-Wert, der zur Wahrscheinlichkeit 0,975 gehört, 1,96 ist.

(1-α/2)-Quantil der Standardnormalverteilung

Wir können jetzt das entsprechende Intervall für Z

P\left(-1,96\leq Z\leq 1,96\right)=0,95

angeben. Die Ungleichung wird bezüglich μ aufgelöst:

P\left(-1,96\leq {\frac {{\bar {X}}-\mu }{\sqrt {\frac {\sigma ^{2}}{n}}}}\leq 1,96\right)=0,95\;.

P\left(-1,96\leq {\frac {{\bar {X}}-\mu }{\sqrt {4}}}\leq 1,96\right)=0,95\;.

P\left(-1,96\cdot 2\leq {\bar {X}}-\mu \leq 1,96\cdot 2\right)=0,95\;.

P\left(-{\bar {X}}-1,96\cdot 2\leq -\mu \leq -{\bar {X}}+1,96\cdot 2\right)=0,95\;.

P\left({\bar {X}}+1,96\cdot 2\geq \mu \geq {\bar {X}}-1,96\cdot 2\right)=0,95\;.

P\left({\bar {X}}-1,96\cdot 2\leq \mu \leq {\bar {X}}+1,96\cdot 2\right)=0,95\;.

Dieses Intervall wird Zufallsintervall genannt, weil es von einer Zufallsvariablen ( ${\overline {X}}$ ) gebildet wird. Wir schreiben jetzt dieses Intervall mit Symbolen:

P\left({\overline {X}}-z\left(1-{\frac {\alpha }{2}}\right)\cdot {\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\overline {X}}+z\left(1-{\frac {\alpha }{2}}\right)\cdot {\frac {\sigma }{\sqrt {n}}}\right)=1-\alpha \;.

Wir bezeichnen $1-\alpha =0,95$ als Konfidenzkoeffizient. $\alpha =0,05$ dagegen ist die Irrtumswahrscheinlichkeit oder das Signifikanzniveau.

Die Breite des Intervalls ist hier

2\cdot (2\cdot 1,96)=2\cdot {\frac {\sigma }{\sqrt {n}}}\cdot z(0,975)=7,84\;.

Also schwankt eine X-Schätzung für μ mit einer 95%igen Wahrscheinlichkeit in einem Intervall der Breite von 7840 Kaffeepaketen, d.h. μ befindet sich mit einer 95%igen Wahrscheinlichkeit in diesem Intervall.

Es kann aber passieren, dass die Schätzung x extrem daneben liegt. In der Grafik wurde mit x daneben gegriffen; dieser Fall wird durch diese restlichen 5% abgedeckt.

Konkretes 95%-Konfidenzintervall

Es liegt nun ein konkreter Schätzwert von x = 98 vor. Wir erhalten das Konfidenzintervall

{\begin{array}{ccl}&&[{\bar {x}}-2\cdot 1,96;{\bar {x}}+2\cdot 1,96]\\&=&[98-2\cdot 1,96;98+2\cdot 1,96]\\&=&[98-3,92;98+3,92]\\&=&[94,08;101,92]\;.\\\end{array}}

Entscheidung: μ kann bei einer Wahrscheinlichkeit von 95% unter 100 liegen, also kann der mittlere Umsatz unter 100.000 liegen. Deshalb sollte die Firma von dieser Investition absehen.

Was wäre, wenn man $[101;108,84]$ erhalten hätte? Dann wäre eine dauerhafte Liquidität zu vermuten.

Einfluss der Varianz auf das Konfidenzintervall

Was wäre, wenn σ² statt 200 den Wert 5000 hätte? Dann wäre

{\bar {X}}\to N(\mu ;{\frac {5000}{50}}=100)\;.

Wir erhielten das Konfidenzintervall

{\begin{array}{ccl}&&[{\bar {x}}-1,96\cdot {\sqrt {100}};{\bar {x}}+1,96\cdot {\sqrt {100}}]\\&=&[98-19,6;98+19,6]\\&=&[78,4;117,6]\;.\end{array}}

Das hieße, der wahre durchschnittliche Absatz läge mit einer Wahrscheinlichkeit von 95% zwischen 78 400 und 117 600 Päckchen. Dieses Intervall wäre eine sehr grobe Abschätzung. Mit so etwas kann man nicht mehr vernünftig planen.

Also wird das Konfidenzintervall mit steigender Varianz breiter, die Schätzungen werden schlechter, ungenauer. Hier könnte man als Abhilfe den Stichprobenumfang erhöhen.