Statistik: Schätzen und Testen

Aus Wikibooks

Es folgt nun die große Abteilung des Schätzens und Testens, was man auch als induktive Statistik bezeichnet, induktiv deshalb, weil wir von speziellen Beobachtungen auf grundlegende Gesetze stochastischer Phänomene wie Grundgesamtheiten schließen.

Fastfood-Beispiel[Bearbeiten]

Betrachten wir ein Beispiel, um die erforderliche "Denke" zu üben:

Ein Fastfood-Anbieter betreibt eine große Anzahl Filialen. Im Mittelpunkt des Interesses steht der monatliche Gewinn einer Filiale. Es ist bekannt, dass die Zufallsvariable : Gewinn einer Filiale (in 1000 €) normalverteilt ist. Für die weitere Zukunftsplanung benötigt die Unternehmensleitung Informationen über die Verteilungsparameter, den Erwartungswert und die Varianz , die unbekannt sind. Um Informationen über diese Parameter zu erhalten, nimmt man eine Stichprobe – man erhebt viele Beobachtungen der Variablen – und schätzt mit dieser Stichprobe die Parameter.

Grundgesamtheit und Stichprobe

Es wird hier der Gewinn von zufällig ausgewählten Filialen erhoben.

Die Parameter sollen nun geschätzt werden. Der interessierende Gewinn ist in Wahrheit normalverteilt mit dem Durchschnittswert und der Varianz was jedoch unbekannt ist.

Für die Schätzung des Durchschnittswertes wird eine Stichprobe gemacht. Es werden neun Filialen befragt und dann wird der mittlere Gewinn berechnet. Man versucht also, den Durchschnittsgewinn der Grundgesamtheit mit dem Durchschnittsgewinn in der Stichprobe zu schätzen.

Den Gewinn einer Filiale Nr. bezeichnen wir als Zufallsvariable , denn zu jeder ausgewählten Firma gehört eine eigene Zufallsvariable. Eine konkrete Beobachtung bezeichnen wir wie gewohnt als .

Beispielsweise ergab sich

Stichprobe Nr.
1 9,26 10,31 15,8 11,43 14,01 6,53 6,3 11,16 3,98 9,86

Die Schätzung von , das arithmetische Mittel , betrug .

liegt erwartungsgemäß in der Nähe von 10. Bei einer stetigen Zufallsvariablen wird man theoretisch so gut wie nie ein erhalten, das genau gleich ist, denn die Wahrscheinlichkeit dafür ist nahezu Null, wie wir ja von stetigen Zufallsvariablen wissen.

Welche Methoden gibt es nun, zu schätzen?

Durch , also

oder durch den Median , also , der fünfte Wert , wenn man die Werte der Größe nach ordnet.

Welche Schätzung ist besser? Bei jeder Stichprobe können und anders ausfallen, weil ihre Werte immer von den Realisationen der abhängen. Stichprobenmittel und -median sind also selbst Zufallsvariablen bzw. . Sie sind eine Funktion der Stichprobenvariablen .

Statistische Wiederholungen[Bearbeiten]

Fastfood-Beispiel: Wir gehen modellhaft bei der Variablen "Gewinn" von einer Zufallsvariablen : Gewinn einer Filiale aus. ist normalverteilt mit dem Erwartungswert 10 und der Varianz 16, was aber den Betreibern unbekannt ist.

Es werden nun jeden Monat zu Kontrollzwecken 9 zufällig ausgewählte Filialen analysiert. Aus den Gewinnen der neun Filialen wird jeweils das arithmetische Mittel berechnet.

Es wird also jeden Monat eine Stichprobe mit 9 Realisationen () der Zufallsvariablen bis erhoben. Es ergab sich die unten folgende Tabelle. Man sieht, dass die einzelnen Werte stark schwanken und damit auch die Stichprobenmittel und –mediane unterschiedlich ausfallen. Ganz rechts sehen wir eine Spalte , also das arithmetische Mittel aus kleinstem und größtem Wert in der Zeile.

Stichprobe Nr.
1 9,26 10,31 15,8 11,43 14,01 6,53 6,3 11,16 3,98 9,86 10,31 9,89
2 4,46 6,22 13,89 11,31 12,83 9,67 10,19 7,49 9,79 9,54 9,79 9,175
3 5,73 12,42 3,3 13,1 14,7 8,73 14,04 14,12 9,64 10,64 12,42 9,00
4 8,76 22,24 10,44 11,2 9,16 8,9 13,98 9,96 8,74 11,49 9,96 15,49
5 2,14 11,48 5,83 13,45 10,51 12,8 8,49 8,01 11,69 9,38 10,51 7,795
6 12,52 6,53 11,46 7,87 9,9 10,77 4,86 11,26 15,38 10,06 10,77 10,12
7 4,64 12,22 10,27 7,97 12,26 16,27 6,5 13,88 10,13 10,46 10,27 10,455
8 11,64 5,18 11,73 11,19 10,59 11,48 9,00 10,23 10,56 10,18 10,59 8,46
9 10,93 5,05 12,81 10,23 4,81 8,86 11,52 6,01 14,6 9,42 10,23 9,705
10 12,1 10,42 9,04 8,23 16,2 14,57 13,1 7,3 6,44 10,82 10,42 11,32
11 2,57 14,67 13,09 10,15 10,5 6,28 8,34 13,26 11,09 9,99 10,5 8,62
12 3,45 10,42 8,86 10,16 -1,17 8,71 10,25 -0,36 4,84 6,13 8,71 4,62
13 11,21 11,09 -2,77 16,24 11,59 9,08 5,38 12,57 9,14 9,28 11,09 6,735
14 8,62 6,78 9,62 15,45 12,9 7,19 7,61 16,49 15,04 11,08 9,62 11,63
15 13,23 7,92 10,17 15,38 7,6 7,8 13,85 13,58 13,41 11,44 13,23 11,49
16 9,35 12,09 11,76 9,05 11,89 12,76 11,42 9,07 11,81 11,02 11,76 10,905
17 6,6 4,16 7,8 17,3 10,22 10,74 6,66 13,61 5,47 9,17 7,8 10,73
18 4,01 15,34 8,28 11,49 7,83 7,37 8,51 9,98 14,21 9,67 8,51 9,675
19 6,21 1,72 0,55 4,85 7,14 12,3 13,33 0,39 12,96 6,61 6,21 6,86
20 9,66 10,17 13,75 8,3 11,32 12,09 11,79 5,23 16,5 10,98 11,32 10,865

Da man mit den Funktionen und einen Parameter schätzt, nennt man sie Schätzfunktionen.

ist z. B. normalverteilt mit dem Erwartungswert und der Varianz , was wir beispielsweise hier noch mal nachlesen können.

ist also eine Schätzfunktion für . Nennen wir diese Funktion ( wie estimator), also . Und ebenso ist eine Schätzfunktion für , .

Man könnte sich noch andere Schätzfunktionen für ausdenken, z. B. oder oder usw.

Jeder kann sehen, dass in unserer Sammlung von Schätzfunktionen, oder auch Schätzer genannt, sinnvolle Schätzer und Schätzer von zweifelhaftem Wert versammelt sind. Wir können jeden beliebigen Unsinn zu einem Schätzer erklären, es gibt da kein Gesetz. Aber es gibt einige anerkannte Anforderungen an brauchbare Schätzer. Welche Anforderungen stellen wir also an eine Schätzfunktion?

Anforderungen an eine Schätzfunktion[Bearbeiten]

  • Sie sollte im Durchschnitt den wahren Parameter ergeben, also . Man nennt so eine Schätzfunktion erwartungstreu.
erwartungstreu: Die Schätzungen streuen gleichmäßig um
verzerrt: Die Schätzungen befinden sich systematisch links von
  • Die Varianz der Schätzfunktion sollte möglichst klein sein, damit die resultierenden E-Werte nicht so weit vom Erwartungswert abweichen.
kleine Varianz: Die Schätzung wird in einem kleinen Intervall bleiben
große Varianz: Die Schätzungen streuen wild herum, sind wenig vertrauenserweckend

Welche Schätzfunktionen könnten erwartungstreu sein?

Da es sich bei um eine normalverteilte Zufallsvariable handelt, sind sowohl als auch erwartungstreu für , denn hier fallen Erwartungswert und Median zusammen. Aber auch das etwas verquere ist erwartungstreu, denn der kleinste und größte Wert einer Stichprobe nehmen im Durchschnitt den zentralen Wert in die Mitte. Die anderen vorgeschlagenen Schätzer sind natürlich Unsinn.

Wir wollen die Statistiken der 20 Stichproben betrachten. Beispielsweise ergibt sich für das Mittel der -Werte

und für die Mediane das Mittel

Die Varianz der Mittelwerte berechnen wir als

In der folgenden Tabelle sind die arithmetischem Mittel und Standardabweichungen der Schätzungen für alle 20 Stichproben zusammengefasst:

Schätzung für
Mittelwert 9,861 10,20 9,68
Varianz 1,956 2,46 5,13

Man sieht schon hier, dass die Schätzfunktion die kleinste Varianz hat.

Man nennt eine erwartungstreue Schätzfunktion mit kleinster Varianz einen besten Schätzer.

Von größerem Interesse ist auch die Varianz einer Zufallsvariablen. Die erwartungstreue Schätzfunktion für die Varianz ist die Stichprobenvarianz

Für die erste Stichprobe ergibt sich dann die Schätzung

Beachte: Der Nenner statt in der obigen Formel ergäbe einen verzerrten Schätzer, hier würde die Varianz unterschätzt. Man nennt diese Form der Varianz deskriptive Varianz. Sie wird häufig "für den Hausgebrauch" verwendet.

Bemerkung: Häufig kennzeichnet man den konkreten Schätzwert für einen unbekannten Parameter mit einem Dach, also beispielsweise

  • Erwartungswert :
  • Varianz :
  • 50%-Quantil einer normalverteilten Zufallsvariablen : (Median der Stichprobe)

Schätzen wir einen unbekannten Parameter durch einen konkreten Wert, den wir mit Hilfe der dazugehörigen Schätzfunktion ermittelt haben, sprechen wir von einer Punktschätzung. Wie dieses? Weil wir bei einer vorliegenden Stichprobe einen einzigen Wert erhalten, also einen Punkt. Es gibt nämlich auch Intervallschätzungen, die im nächsten Abschnitt erläutert werden.