Statistik: Hypothesentests

Einführung an Hand eines Beispiels mit Wurstgläsern

Die Firma HappyWurscht stellt Wurstwaren her. Sie ist vor allem für ihre delikate Leberwurst in 250g-Gläsern bekannt. Diese werden durch eine Füllanlage mit der noch heißen, flüssigen Masse befüllt. Um Beanstandungen bezüglich der Füllmenge zu vermeiden, füllt man etwas mehr Masse als 250 g ein. Die Füllmenge schwankt immer leicht, aber es wird ein durchschnittliches Füllgewicht von 260g angestrebt. Die Qualitätssicherung soll die Einhaltung dieser Durchschnittsmenge überprüfen.

Überlegung zur Verteilung der Stichprobe

Es ist aber das durchschnittliche Füllgewicht eines Wurstglases unbekannt. Bekannt ist in diesem Beispiel lediglich, daß das Füllgewicht normalverteilt ist mit einer Varianz σ² = 64 [g²].

Wie könnte man nun den Durchschnitt ermitteln? Man könnte eine Stichprobe mit z. B. n = 16 Beobachtungen ziehen und versuchen, aus dem arithmetischen Mittel ${\overline {x}}$ auf das durchschnittliche Füllgewicht der Grundgesamtheit zu schließen.

Wir betrachten nun das Füllgewicht eines Wurstglases. Wir bezeichnen es als Zufallsvariable X. Es soll geprüft werden, ob durchschnittlich 260g in einem Glas sind, d. h. ob EX = 260 ist.

Beträgt nun tatsächlich der wahre durchschnittliche Absatz der Grundgesamtheit μ₀ = 260, kann man bei einer genügend großen Stichprobe vermuten, daß ${\overline {x}}$ in der Nähe von μ₀ liegen müßte. Meistens wird ${\overline {x}}$ in der Nähe von μ₀ liegen, da aber ${\overline {x}}$ die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fällen ${\overline {x}}$ auch extrem weit von μ₀ weg liegen, so daß man dann μ verkehrt einschätzt.

Man könnte aber ein Intervall um μ₀ bestimmen, in dem bei Vorliegen von μ₀ z. B. 95% aller möglichen ${\overline {x}}$ -Werte liegen, also

P({\bar {x}}_{u}\leq {\bar {X}}\leq {\bar {x}}_{o})=0{,}95\;.

Es wird dann eine konkrete Stichprobe genommen. Fällt ${\overline {x}}$ nicht in dieses Intervall $[{\overline {x}}_{u};{\overline {x}}_{o}]$ , ist ${\overline {x}}$ zu weit von μ₀ weg. Man geht dann davon aus, dass μ₀ ≠ 260 ist. Damit man dieses Intervall berechnen kann, müssen Informationen über die Verteilung von ${\overline {x}}$ verfügbar sein.

Ablauf eines Hypothesentests

Feststellung der Verteilung des Merkmals in der Grundgesamtheit

Die Zufallsvariable X: Füllgewicht eines Wurstglases ist normalverteilt mit einem unbekannten Erwartungswert μ und der bekannten Varianz varX = σ² = 64. Man interessiert sich für den Parameter μ.

Aufstellen der Nullhypothese

Man stellt die Nullhypothese H₀: μ = μ₀ = 260 auf, d. h. man behauptet, das wahre unbekannte durchschnittliche Füllgewicht in der Grundgesamtheit betrage μ₀ = 260.

Festlegen des Nichtablehnungsbereiches für H₀

Zur Überprüfung der Hypothese soll eine Stichprobe im Umfang von n = 16 gezogen werden, die zu einer sog. Prüfgröße ${\overline {x}}$ zusammengefasst wird.

Der Stichprobendurchschnitt ${\overline {x}}$ ist selbst eine Zufallsvariable und ist als lineare Transformation von X wiederum normalverteilt und zwar mit den Parametern

E{\bar {X}}=\mu

und

\operatorname {var} {\bar {X}}={\frac {\sigma ^{2}}{n}}\;.

Bei Gültigkeit von H₀ ist also

{\bar {X}}\to N\left(\mu _{0};{\frac {\sigma ^{2}}{n}}\right)\;,

hier

{\bar {X}}\to N\left(260;{\frac {64}{16}}=4\right)\;.

Nun wird der Bereich für ${\overline {x}}$ festgelegt, in dem die Nullhypothese nicht abgelehnt wird, der Nichtablehnungsbereich (NAB) [ ${\overline {x}}$ _u; ${\overline {x}}$ _o]. Fällt die Prüfgröße ${\overline {x}}$ in diesem Bereich, wird H₀ nicht abgelehnt. Es soll sein

P({\bar {x}}_{u}\leq {\bar {X}}\leq {\bar {x}}_{o})=0,95=1-\alpha \;.

Wir nennen α das Signifikanzniveau oder den α-Fehler: Das ist die Wahrscheinlichkeit, dass die Nullhypothese H₀ abgelehnt wird, obwohl μ₀ = 260 der wahre Parameter ist.

Bestimmung von [ ${\overline {x}}$ _u ; ${\overline {x}}$ _o]:

Standardisiert man mit

Z={\frac {{\bar {X}}-\mu _{0}}{\sqrt {\frac {\sigma ^{2}}{n}}}}\;,

können wir analog zu oben

P(z_{u}\leq Z\leq z_{o})=0,95

schreiben. Es ergibt als Intervall für Z:

{\begin{array}{ccl}[z_{u};z_{o}]&=&[z(\alpha /2);z(1-\alpha /2);]\\&=&[-z(1-\alpha /2);z(1-\alpha /2);]\\&=&[-z(0,975);z(0,975)]\\&=&[-1,96;1,96]\end{array}}

Nichtablehnungsbereich der Nullhypothese für ${\overline {x}}$

Es ist nun aber

{\bar {x}}_{u}=\mu _{0}-z(1-\alpha /2){\frac {\sigma }{\sqrt {n}}}

und

{\bar {x}}_{o}=\mu _{0}+z(1-\alpha /2){\frac {\sigma }{\sqrt {n}}}

so dass hier der Nichtablehnungsbereich für ${\overline {x}}$

{\begin{array}{ccl}[{\bar {x}}_{u};{\bar {x}}_{o}]&=&[260-1{,}96\cdot 2;260+1{,}96\cdot 2]\\&=&[260-3{,}92;260+3{,}92]\\&=&[256{,}08;263{,}92]\end{array}}

ist.

Wenn μ₀ tatsächlich 260 ist, würde ${\overline {x}}$ in 5% aller Stichproben in den Ablehnungsbereich

(-\infty ;256{,}08]\lor [263{,}92;\infty )

fallen.

Stichprobe erheben

Nach der Festlegung des Nichtablehnungsbereichs wird eine Stichprobe genommen. Es wurde hier der Inhalt von 16 Gläsern gewogen. Es ergab sich die Urliste

268  252  254  252  251  245  257  275  268  270  253  250  266  265  250  267

Es ist dann

{\bar {x}}={\frac {1}{16}}(268+252+\dots +267)=

{\frac {1}{16}}(4144)=259

.

Entscheidung treffen

Wir fällen nun die Entscheidung: Da ${\overline {x}}$ = 259 im Nichtablehnungsbereich liegt, wird H₀ nicht abgelehnt. Es wird davon ausgegangen, dass die Maschine die Gläser korrekt befüllt.

Eine äquivalente Vorgehensweise ist, man bestimmt zunächst die standardisierte Prüfgröße z:

z={\frac {{\bar {x}}-\mu _{0}}{\frac {\sigma }{\sqrt {n}}}}={\frac {259-260}{\frac {8}{\sqrt {16}}}}={\frac {-1}{2}}=-0,5.

Der Nichtablehnungsbereich für Z ist [-1,96; 1,96]. Da z in den Nichtablehnungsbereich fällt, wird H₀ nicht abgelehnt.

Beide Vorgehensweisen liefern das gleiche Ergebnis.

Punkt- und Bereichshypothesen

In obigen Beispiel wurde für das wahre μ nur ein bestimmter Punkt getestet: H₀: μ = μ₀, also handelt es sich um eine Punkthypothese. Es könnte aber sein, dass der Hersteller einem Großabnehmer versichert hat, dass das durchschnittliche Füllgewicht mindestens 260 g beträgt. Es wird also hier genügen, zu prüfen, ob der Mindestwert erreicht wird. Es ist aber kein Problem, wenn die durchschnittliche Füllmenge größer als 260 ist.

Ablehnungsbereich der Mindesthypothese H₀: μ ≥ μ₀ = 260

Man stellt also als Arbeitshypothese auf: H₀: μ ≥ μ₀ = 260. Wird die Prüfgröße ${\overline {x}}$ geringfügig kleiner als 260, kann das eine Zufallsschwankung sein. Aber wird ${\overline {x}}$ zu klein, muss H₀ abgelehnt werden. Da hier nur der Bereich links von μ₀ kritisch für die Ablehnung ist, wird das gesamte α links auf dem Zahlenstrahl plaziert, der kritische Wert für z ist also z(α) = -z(1-α). Fällt z in den Ablehnungsbereich (-∞; -z(1-α)], wird H₀ abgelehnt. Man geht dann davon aus, dass μ kleiner als μ₀ sein muss, dass also die Befüllung nicht ordnungsgemäß ist. Der kritische Wert für ${\overline {x}}$ ist hier

{\bar {x}}_{1-\alpha }=\mu _{0}-z(1-\alpha )\cdot {\frac {\sigma }{\sqrt {n}}}\;,

also

{\bar {x}}_{1-\alpha }=260-1{,}65\cdot {\frac {8}{\sqrt {16}}}=256{,}7\;.

Wenn die Stichprobe ein Durchschnittsgewicht von weniger als 256,7g ergibt, wird die Lieferung beanstandet.

Entsprechend erhält man unter der Hypothese H₀: μ ≤ μ₀ für die Prüfgröße z den Ablehnungsbereich [z(1-a); ∞) bzw.

{\bar {x}}_{1-\alpha }=\mu _{0}+z(1-\alpha )\cdot {\frac {\sigma }{\sqrt {n}}}\quad .

Fehler und Varianzen

Fehlerarten

Warum wird der α-Fehler als Fehler bezeichnet? Hier wollen wir uns zunächst mal überlegen, welche Fehler bei der Entscheidung überhaupt gemacht werden können?

Vermischung der hypothetischen und tatsächlichen Verteilung

H₀ ist wahr, die Prüfgröße fällt aber in den Ablehnungsbereich (in α * 100% aller Stichproben). Hier würde man H₀ irrtümlicherweise ablehnen, obwohl H₀ wahr ist: α-Fehler oder Fehler 1. Art. In unserem Beispiel würde also die Lieferung möglicherweise zurückgewiesen werden, obwohl die Gläser korrekt befüllt worden sind.
H₀ ist falsch, die Prüfgröße fällt aber in den Nichtablehnungsbereich. In Wirklichkeit ist μ = μ₁ , z. B. μ₁ = 255 g. Jetzt ist bei unveränderter Varianz in Wahrheit der Stichprobendurchschnitt ${\overline {x}}$ verteilt wie

N\left(\mu _{1};{\frac {\sigma ^{2}}{n}}\right)=N(255;4)

Unter dieser Verteilung beträgt die Wahrscheinlichkeit, dass H₀ (fälschlicherweise) nicht abgelehnt wird,

P({\bar {X}}\geq 256{,}7)=1-\Phi _{\bar {x}}(256{,}7|255;4)\;,

was sich einfach berechnen lässt als

1-\Phi _{z}\left({\frac {256{,}7-255}{2}}\right)=1-\Phi _{z}(0{,}85)=0{,}1977.

Man würde also mit fast 20%iger Wahrscheinlichkeit irrtümlicherweise die Lieferung akzeptieren. Dieser Fehler ist der β-Fehler oder Fehler 2. Art.

Wenn in Wahrheit μ = μ₂ = 252 ist, beträgt der β-Fehler

P({\bar {X}}\geq 256,7)=1-\Phi _{\bar {x}}(256,7|252;4)=

1-\Phi _{z}({\frac {256,7-252}{2}})=1-\Phi _{z}(2{,}35)=0{,}0094.

Hier ist die Wahrscheinlichkei einer irrtümlichen Ablehnung schon sehr klein.

Operationscharakteristik zur Hypothese: μ ≤ 260

Der β-Fehler hängt also von μ₁ ab. Man kann den β-Fehler in Abhängigkeit von μ₁ als Funktion darstellen: β = f(μ₁). Diese Funktion nennt man Operationscharakteristik. Der Wert 1 - β ist dagegen die Wahrscheinlichkeit, dass H₀ abgelehnt wird, wenn μ₁ der wahre Parameter ist. Man sieht an der Grafik, dass 1 - β für μ = 260 gerade 0,05 ist. Das ist natürlich die Wahrscheinlichkeit, dass H₀ (hier fälschlicherweise) abgelehnt wird, wenn 260 tatsächlich der wahre Parameter ist.

Um die Wahrscheinlichkeit für eine falsche Entscheidung zu reduzieren, ist es wünschenswert, möglichst schnell in den Bereich β ≈ 0 zu kommen. U. U. hilft eine Erhöhung des Stichprobenumfangs.

Eine Hypothese, die nicht abgelehnt ist, gilt nicht automatisch als angenommen, denn der β-Fehler ist i.a. unbekannt.

Wenn ein Test die Wahrscheinlichkeit der Annahme falscher Nullhypothesen möglichst reduziert, nennt man ihn trennscharf.

Breite des Nichtablehnungsbereichs

Es soll nun wieder die Punkthypothese H₀: μ = μ₀ betrachtet werden. Es ergab sich hier für ${\overline {x}}$ der Nichtablehnungsbereich [256,08; 263,92] mit einer Breite 7,84 g.

Änderung des Signifikanzniveaus

Welcher NAB ergibt sich für α = 0,01? Wir errechnen das (1 - α/2)-Quantil als

\alpha =0{,}01\to \alpha /2=0{,}005\to 1-\alpha /2=0{,}995\to z(0{,}995)=2{,}58

und erhalten den Nichtablehnungsbereich für ${\overline {x}}$ als

{\begin{array}{ccl}&&[260-z(0{,}995)\cdot 2;260+z(0{,}995)\cdot 2]\\&=&[260-2{,}58\cdot 2;260+2{,}58\cdot 2]\\&=&[260-5{,}16;260+5{,}16]\\&=&[254{,}84;265{,}16]\\\end{array}}

.

Hier ist der Nichtablehnungsbereich breiter als für α = 0,05: H₀ wird nur in 1% aller Stichproben fälschlicherweise abgelehnt. Hier hätte die Lieferfirma einen Vorteil.

Welcher NAB ergibt sich für α = 0,1?

{\begin{array}{ccl}&&[260-z(0,95)\cdot 2;260+z(0,95)\cdot 2]\\&=&[260-1,65\cdot 2;260+1,65\cdot 2]\\&=&[260-2,30;260+2,30]\\&=&[257,70;262,30]\end{array}}

.

Hier ist der Nichtablehnungsbereich schmäler, H₀ wird in 10% aller Stichproben fälschlicherweise abgelehnt.

Änderung der Varianz

Was passiert, wenn die Varianz σ² = 256 ist (α = 0,05)? Man erhält hier für die Punkthypothese H₀: μ = μ₀ = 260 den NAB für ${\overline {x}}$

{\begin{array}{ccl}&&\left[260-1,96\cdot {\sqrt {\frac {256}{16}}};260+1,96\cdot {\sqrt {\frac {256}{16}}}\,\right]\\&=&[260-1,96\cdot 4;260+1,96\cdot 4]\\&=&[260-7,84;260+7,84]\\&=&[252,16;267,84]\end{array}}

.

Die Breite des Nichtablehnungsbereichs ist hier 15,68g.

Für H;₀: μ ≥ μ₀ ergibt sich dann entsprechend als kritischer Wert

260-1,65\cdot 4=253,4

.

Die Grafik zeigt den Fall der Bereichshypothese mit einer Varianz von 16: Durch die große Varianz sind die Normalverteilungskurven sehr flach und durchmischen sich stark. Der Betafehler bei μ₁ = 255 ist sehr groß. Eine vernünftige Kontrolle der Abfüllmaschine ist nicht mehr möglich.

Der Nichtablehnungsbereich wird mit wachsender Varianz breiter, der Test verliert an Trennschärfe.

Änderung des Stichprobenumfangs

Was passiert, wenn der Stichprobenumfang jetzt 64 beträgt (α = 0,05; σ² = 64)?

{\begin{array}{ccl}&&\left[260-1,96\cdot {\sqrt {\frac {64}{64}}};260+1,96\cdot {\sqrt {\frac {64}{64}}}\,\right]\\&=&[260-1,96\cdot 1;260+1,96\cdot 1]\\&=&[260-1,96;260+1,96]\\&=&[258,04;261,96]\end{array}}

.

Hier hat der Nichtablehnungsbereich eine Breite von 3,92, denn durch den größeren Stichprobenumfang hat sich die Varianz von ${\overline {x}}$ verringert. Der NAB schrumpft bei steigendem Stichprobenumfang, der Test wird trennschärfer.

Mindest erforderlicher Stichprobenumfang

Wie groß muß die Stichprobe mindestens sein, damit die Breite des NAB für α = 0,05 höchstens 10 beträgt?

Die Breite des NAB ist ja definiert durch

2\cdot z(1-\alpha /2)\cdot {\frac {\sigma }{\sqrt {n}}}

.

Es soll also hier sein

2\cdot 1,96\cdot {\frac {64}{\sqrt {n}}}\leq 10

.

Die Auflösung der Ungleichung nach ${\sqrt {n}}$ ergibt dann

{\sqrt {n}}\geq 2\cdot 1,96\cdot {\frac {64}{10}}=25,088

und

({\sqrt {n}})^{2}=629,41

.

Da wir nur ganze Wurstgläser analysieren können, brauchen wir einen Stichprobenumfang von mindestens 630 Gläsern.

Kann die Wurst mit dem Glas zusammen gewogen werden, stellt diese hohe Zahl kein Problem dar. Geht durch so eine Stichprobe allerdings die Zerstörung der Ware mit einher, etwa die lebensmitteltechnische Untersuchung einer Konservendose, muss man einen Kompromiss zwischen mangelnder Trennschärfe und Zerstörung der Ware finden.

↓ Test auf Erwartungswert

↑ Ausgewählte Konfidenzintervalle

↑↑ Inhaltsverzeichnis Statistik