Benutzerin:Gabriele Hornsteiner/ Datenanalyse/ Von der Stichprobe zur Grundgesamtheit

Aus Wikibooks

Wenn man Daten untersucht, will man häufig einen Rückschluss auf eine größere zu Grunde liegende Gesamtheit ziehen.

Beispiel:

Ein großes Versandhaus hätte gern Informationen über die Zufriedenheit seiner Kunden mit dem Service. Da eine Vollerhebung der gesamten Kundschaft als Grundgesamtheit zu aufwendig ist, wird eine Stichprobe gemacht: Es werden beispielsweise 1000 zufällig ausgewählte Kunden angeschrieben und es stellt sich heraus, dass von diesen Kunden 600 zufrieden waren, also p=60%. Man kann nun vermuten, dass dann auch der Anteil Θ der zufriedenen Kunden in der Grundgesamtheit in der Nähe von 60% liegt. Wir haben hier den unbekannten Parameter Θ mit dem Stichprobenwert p geschätzt. Der wahre Wert Θ wird nur in Ausnahmefällen genau 60% sein. Man kann sich überlegen, dass p umso näher an Θ liegt, je mehr Kunden befragt werden. Die Schätzung wird also mit wachsendem Stichprobenumfang n besser. Man kann sich dann ein Intervall vorgeben, in dem der wahre Parameter mit einer Wahrscheinlichkeit von z.B. 95 liegt: Das Konfidenzintervall. So könnte sich etwa ein Konfidenzintervall vin [0,55; 0,65] ergeben, was bedeutet, dass der wahre Parameter mit einer Wahrscheinlichkeit von 95% in diesem Intervall befindet. Hier hätte man schon eine recht brauchbare Schätzung. Ist die Stichprobe sehr klein, könnte sich auch etwa [0,1; 1,1] ergeben. Hier ist die Schätzung wertlos, denn mit so einem breiten Intervall kann man nichts Vernünftiges anfangen. Die Breite des Konfidenzintervalls hängt also vom Stichprobenumfang n ab. Es betrüge in unserem Beispiel näherungsweise

wobei 1,96 bekanntlicherweise das entsprechende Quantil der Standardnormalverteilung beim 95%-Konfidenzintervall darstellt.

In obigem Beispiel ist das interessierende Merkmal Zufriedenheit nominalskaliert, denn die Ausprägungen sind: Ja oder nein. Die Grundgesamtheit teilt sich also in die zufriedene und unzufriedene Kunden auf. Wir haben eine so genannte dichotome (zweigeteilte) Grundgesamtheit vor uns. Man könnte also die vorliegende Konstellation als Urnenmodell mit zwei Sorten Kugeln, etwa roten und blauen, auffassen. Der Anteil Θ der roten Kugeln in der Urne ist unbekannt. Wir ziehen n viele Kugeln und zählen die Zahl x der roten Kugeln in der Stichprobe. Θ wird nun mit p=x/n geschätzt.

Liegt nun beispielsweise ein metrisch skaliertes Merkmal vor, interpretieren wir es in der Grundgesamtheit als Zufallsvariable. Ihre unbekannten Verteilungparameter schätzen wir wieder mit entsprechenden Schätzern, zB. der Erwartungswert EX mit dem artithmetischen Mittel x und die Varianz varX mit der Stichprobenvarianz s2.

Will man durch eine Datenanalyse Rückschlüsse auf die Grundgesamtheit ziehen, muss man das mit Hilfe der mathematischen Statistik untermauern, also entweder durch Konfidenzintervalle, wie oben oder durch Hypothesentests.


Zurück zu Inhaltsverzeichnis