Statistik: Prinzip des Konfidenzintervalls
Beispiel mit Absatz von Kaffeepaketen
Beispiel:
Eine Kaffeerösterei möchte eine neue Röstanlage anschaffen. Um beurteilen zu können, ob die Firma den aufzunehmenden Kredit tilgen kann, braucht sie Informationen über den durchschnittlichen monatlichen Absatz an Kaffeepaketen. Pro Monat muss die Firma 20.000 € Annuität zahlen. Zusammen mit den Produktionskosten sollte sie im Durchschnitt auf einen Absatz von 100.000 Kaffeepaketen im Monat kommen. Die Frage ist nun, wird sie es schaffen?
Plausible Überlegungen zur Schätzung
Der durchschnittliche monatliche Absatz von Kaffeepaketen ist unbekannt. Wie könnte man den Durchschnitt ermitteln? Man könnte eine Stichprobe mit z.B. n = 50 Beobachtungen ziehen und versuchen, aus dem arithmetischen Mittel x auf den durchschnittlichen monatlichen Absatz der Grundgesamtheit zu schließen. Ist die Stichprobe groß genug, kann man vermuten, dass der Durchschnitt EX in der Grundgesamtheit, hier μ, in der Nähe von x liegen müsste. Meistens wird x in der Nähe von μ liegen, da aber x die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fällen x auch extrem weit von μ weg liegen, so daß man dann μ verkehrt einschätzt.
Wir betrachten nun den monatlichen Absatz von Kaffeepaketen (in 1000). Wir bezeichnen ihn als Zufallsvariable X. Es soll der monatliche durchschnittliche Absatz der Kaffeepäckchen geschätzt werden. Bekannt ist lediglich, dass die Zahl der verkauften Kaffeepakete normalverteilt ist mit einer Varianz 200 [10002 Stück2].
Wie sollen wir nun μ eingrenzen? Wir könnten etwa ein Intervall bestimmen, in dem z.B. 95% aller möglichen x-Werte liegen, also
Damit man dieses Intervall berechnen kann, müssen Informationen über die Verteilung von X verfügbar sein. Es soll eine Stichprobe von n = 50 gezogen werden, d.h. es werden die verkauften Kaffeepakete der letzten 50 Monate erfasst:
Verteilung des Merkmals und der Schätzfunktion
Die Zufallsvariable X in der Grundgesamtheit soll normalverteilt sein mit dem Durchschnitt EX = μ und der Varianz VarX = σ2. Die Varianz soll bekannt sein.
Es wird eine Stichprobe vom Umfang n gezogen. Der Stichprobendurchschnitt X ist selbst eine Zufallsvariable und ist als lineare Transformation von X wiederum normalverteilt, und zwar mit den Parametern
- und
Hier ist
- .
Herleitung des Intervalls
Ausgegangen wird von
Untergrenze u und Obergrenze o sollen nun bestimmt werden. Wir standardisieren zunächst
so dass sich analog zu oben
ergibt. zo ist hier das 0,975-Quantil der Standardnormalverteilung. Ein Blick in die Normalverteilungstabelle verrät uns, dass der z-Wert, der zur Wahrscheinlichkeit 0,975 gehört, 1,96 ist.
Wir können jetzt das entsprechende Intervall für Z
angeben. Die Ungleichung wird bezüglich μ aufgelöst:
Dieses Intervall wird Zufallsintervall genannt, weil es von einer Zufallsvariablen () gebildet wird. Wir schreiben jetzt dieses Intervall mit Symbolen:
Wir bezeichnen als Konfidenzkoeffizient. dagegen ist die Irrtumswahrscheinlichkeit oder das Signifikanzniveau.
Die Breite des Intervalls ist hier
Also schwankt eine X-Schätzung für μ mit einer 95%igen Wahrscheinlichkeit in einem Intervall der Breite von 7840 Kaffeepaketen, d.h. μ befindet sich mit einer 95%igen Wahrscheinlichkeit in diesem Intervall.
Es kann aber passieren, dass die Schätzung x extrem daneben liegt. In der Grafik wurde mit x daneben gegriffen; dieser Fall wird durch diese restlichen 5% abgedeckt.
Konkretes 95%-Konfidenzintervall
Es liegt nun ein konkreter Schätzwert von x = 98 vor. Wir erhalten das Konfidenzintervall
Entscheidung: μ kann bei einer Wahrscheinlichkeit von 95% unter 100 liegen, also kann der mittlere Umsatz unter 100.000 liegen. Deshalb sollte die Firma von dieser Investition absehen.
Was wäre, wenn man erhalten hätte? Dann wäre eine dauerhafte Liquidität zu vermuten.
Einfluss der Varianz auf das Konfidenzintervall
Was wäre, wenn σ2 statt 200 den Wert 5000 hätte? Dann wäre
Wir erhielten das Konfidenzintervall
Das hieße, der wahre durchschnittliche Absatz läge mit einer Wahrscheinlichkeit von 95% zwischen 78 400 und 117 600 Päckchen. Dieses Intervall wäre eine sehr grobe Abschätzung. Mit so etwas kann man nicht mehr vernünftig planen.
Also wird das Konfidenzintervall mit steigender Varianz breiter, die Schätzungen werden schlechter, ungenauer. Hier könnte man als Abhilfe den Stichprobenumfang erhöhen.
Mindest erforderlicher Stichprobenumfang
Wie groß muss die Stichprobe mindestens sein, damit die Breite des Konfidenzintervalls höchstens 10 ist?
Die Breite des Konfidenzintervalls ist
Man müsste also mindestens n = 769 Monate erheben, über 64 Jahre!
90%-Konfidenzintervall
Es soll nun ein 90%-Konfidenzintervall für μ bestimmt werden.
Dieses Intervall ist schmaler als das 95%-Intervall.