Zum Inhalt springen

Benutzer:Philipendula/Spielw Druck

Aus Wikibooks

Als wir etwas über statistische Tests lernten, sahen wir, dass das zu Grunde liegende Merkmal meistens idealerweise einer Normalverteilung entstammt. Leider kann uns niemand sagen, ob das auch bei konkret vorliegenden Daten der Fall ist. Die hemdsärmelige Vorgehensweise ist, das wohlwollend zu ignorieren und einfach drauflos zu testen - was auch häufig in der Praxis der Fall ist. Wenn man allerdings eine seriöse Analyse macht, sollte man die Forderung einer bestimmten Verteilung beachten, vor allem, wenn zu befürchten ist, dass die Ergebnisse von einer anderen Seite angezweifelt werden. Hier kann man sich keine Blöße geben.

Was soll man also machen?

  • Bei sehr großem Stichprobenumfang können wir nach dem zentralen Grenzwertsatz näherungsweise die Normalverteilung verwenden, wie wir auch bei den verhergehenden Tests gesehen haben, idealerweise ab einem Stichprobenumfang von .
  • Wir können testen, ob die vorliegenden Daten einer gewünschten Verteilung entstammen.
  • Wir können spezielle Tests verwenden, bei denen die Verteilung des Merkmals keine Rolle spielt.

Es gibt einen ganzen Zoo von Testverfahren, die keine Verteilungsvoraussetzung fordern. Das sind die so genannten verteilungsfreien Tests, d.h. Tests, bei denen die Verteilung des jeweiligen Merkmals unbekannt ist. Diese Tests sind allerdings sehr viel gröber als die verteilungsgebundenen Tests (das sind die, die in den vorhergehenden Abschnitten erläutert wurden), häufig berechnen sich die Ablehnungsbereiche mit Hilfe der Kombinatorik. Diese Tests werden beispielsweise in der Medizin verwendet, bei denen das "Testmaterial" nicht beliebig vermehrbar ist.

Zu den verteilungsfreien Tests gehören ebenso Testverfahren zur Prüfung einer vorliegenden Verteilung, auch wenn das eigenartig klingt. "Verteilungsfrei" heißt ja, dass die vorliegende Verteilung unbekannt ist. Wir sehen uns zunächst zwei einschlägige Tests dazu an: die -Tests (gesprochen "chi-Quadrat-Test", "ch" wie in "weich").

3.5.1. Verteilungstests

Wir wollen testen, ob Daten einer bestimmten Verteilung entstammen könnten.

  • Ist die Zahl von Datenbank-Zugriffen pro Minute Poisson-verteilt?
  • Könnte die Abfüllmenge in Zuckerpakete normalverteilt sein?

Wir betrachten ein Merkmal, genauer: eine Zufallsvariable X mit einer Verteilungsfunktion F(x). Wir testen, dass diese Variable eine bestimmte Verteilung hat. Allgemein können wir die Nullhypothese darstellen als

3.5.1.1. Verteilungstest von diskreten Zufallsvariablen

Wir beginnen mit dem einfachen Beispiel einer diskreten Zufallsvariablen:

Beispiel: Verteilung der Zahl von Rechnern in Haushalten

Ein Computerhersteller gibt eine Marktstudie in Auftrag, um seine Produktionsplanung zu aktualisieren. Bisher ging man davon aus, dass in 20% aller Haushalte kein Rechner vorhanden war, in 50% der Haushalte ein Rechner und in 30% zwei Rechner. Man möchte untersuchen, ob diese Aufteilung noch gilt.

Es wurden zufällig ausgewählte Haushalte befragt.

Man kann sich überlegen, dass bei unveränderter Aufteilung der Rechner auch in der Stichprobe ca. 20% der Haushalte keinen Rechner besitzen sollten. Das sind ca. Haushalte. Wir nennen diese Zahl die erwartete Häufigkeit. Ebenso hätten dann ca. 25 Haushalte einen Rechner und ca. 15 Haushalte zwei.

Unser Wahrscheinlichkeitsmodell sieht so aus: Wir betrachten eine diskrete Zufallsvariable : Zahl der Rechner in einem Haushalt. hat die drei Ausprägungen , und , allgemein . Unten folgt eine Tabelle, die unsere Daten und Berechnungen zusammenfasst. Wir haben nun drei Kategorien . Die unter behaupteten Wahrscheinlichkeiten der Ausprägungen sind . Wir nennen sie hier einfach , die Wahrscheinlichkeit in der Kategorie . Das ist eine sehr allgemeine Bezeichnungsweise, die wir für verschiedene Verteilungstests anwenden können. Die Summe der ist natürlich eins:

.

Im Idealfall sollten die erwarteten Häufigkeiten in der Stichprobe wie folgt berechnen:

wobei "E" für "erwartet" steht.

Erwartete und beobachtete Häufigkeiten der Haushalte mit Rechnern:


Wir testen nun bei einem Signifikanzniveau die Nullhypothese

allgemein: ,

konkret: .

Für die Stichprobe befragen wir die Haushalte. Die Zahl der Haushalte, die in eine Kategorie fallen, sind, wie wir es aus deskriptiven Häufigkeitstabellen kennen, die absoluten Häufigkeiten . Wir nennen sie beobachtete Häufigkeiten. Es hatten in der Stichprobe Haushalte keinen Rechner, Haushalte einen und Haushalte zwei Rechner. Wir können wir die Verteilung prüfen? Wenn die Abstände zwischen den beobachteten Häufigkeiten und den erwarteten Häufigkeiten klein sind, würde das unterstützen. Zur Ablehnung würden große Abweichungen der beobachteten Häufigkeiten von den erwarteten führen. Für diese Differenzen lässt sich der Prüfwert

angeben, dessen dazugehörige Zufallsvariable Y näherungsweise -verteilt ist mit Freiheitsgraden, mit als Zahl der Kategorien, falls keine Verteilungsparameter geschätzt wurden. Wir sehen, dass abgelehnt wird, wenn die Differenzen groß werden, das heißt, wenn auch groß wird. Wir lehnen also ab, wenn ist, hier .

Für die Stichprobe befragen wir die Haushalte. Die Zahl der Haushalte, die in eine Kategorie fallen, sind wie gewohnt die absoluten Häufigkeiten . Wir nennen sie beobachtete Häufigkeiten. Es hatten in der Stichprobe Haushalte kein Auto, Haushalte ein und Haushalte zwei Autos. Wir können wir die Verteilung prüfen? Wenn die Abstände zwischen den beobachteten Häufigkeiten und den erwarteten Häufigkeiten klein sind, würde das unterstützen. Zur Ablehnung würden große Abweichungen der beobachteten Häufigkeiten von den erwarteten führen. Für diese Differenzen lässt sich der Prüfwert


angeben, dessen dazugehörige Zufallsvariable Y näherungsweise -verteilt ist mit Freiheitsgraden, mit m als Zahl der Kategorien, falls keine Verteilungsparameter geschätzt wurden. Wir sehen, dass abgelehnt wird, wenn die Differenzen groß werden, das heißt, wenn auch groß wird. Wir lehnen also ab,

wenn    


hier 

  Nun berechnen wir den Prüfwert. Der Ablauf wird mit Hilfe der folgendenTabelle gezeigt.

j x_j P_j E_j n_j n_j-E_j (n_j-E_j )^2 (n_j-E_j )^2/E_j


Σ


Erst Differenzen . Dann quadriert. Durch erwartete Häufigkeiten geteilt.


Die Summe über die letzte Spalte ergibt dann den gesuchten Wert .


Entscheidung: Der Stichprobenwert ist kleiner als .

 wird also nicht abgelehnt.


Test für häufbare Merkmale aller Skalenniveaus, also für nominal skalierte, ordinal skalierte oder metrische diskrete Merkmale.

Häufig Verteilungsparameter nicht bekannt. Schätzen. Pro geschätztem Parameter ein Freiheitsgrad verloren.

Wenn wir also k viele Parameter schätzen müssen, ist die Prüfgröße näherungsweise -verteilt mit Freiheitsgraden.

Damit die Prüfgröße näherungsweise als -verteilt angenommen werden kann, dürfen die Häufigkeiten nicht zu klein werden. Eine Faustregel besagt, dass

keine erwartete Häufigkeit kleiner als 1 und höchstens 1/5 aller erwarteten Häufigkeiten kleiner als 5

sein soll. Kann diese Bedingung mit der vorliegenden Klasseneinteilung nicht erfüllt werden, sollten andere Klassen gebildet werden, oder es werden mehrere benachbarte Klassen zu einer zusammen gefasst, damit die erwartete Häufigkeit groß genug ist.   3.5.1.2. Verteilungstest einer stetigen Zufallsvariablen

Auch Verteilungstest für stetige Verteilungen. Die Beobachtungen werden in Klassen eingeteilt, hier Kategorien genannt. Die absoluten Häufigkeiten in einer Klasse, ), sind die beobachteten Häufigkeiten.

Wahrscheinlichkeit, dass die Zufallsvariable in das entsprechende Klassenintervall fällt.


Es ergibt sich

,

wobei die Verteilungsfunktion der stetigen Zufallsvariablen ist.

Die erwartete Häufigkeit wird wieder als berechnet.

Beispiel: Bildungsindikator für 51 US-Bundesstaaten

Studie zur Kriminalität: Anteil der mindestens 25-jährigen mit einem Bachelor-Abschluss oder höher. Daten für 51 Bundesstaaten:


Bildungsindikator in der Grundgesamtheit: Zufallsvariable .

  Intervallbildung : usw.

Prüfen, ob das Merkmal normalverteilt ist. Als Verteilungsparameter Schätzungen. und .

Erste Kategorieneinteilung der Akademikerquoten anhand des Histogramms

Klasse Klassen- Klassen- beob. Wahrsch. erw. untergr. obergr. Häuf. Häuf. j x_u x_o n_j F(x_u ) F(x_o ) P_j E_j 1 2 3 4 5 6 7 8


Daten in Klassen eingeteilt, wie im Histogramm. Zwischen 33,2 und 39,1 eine Kategorienlücke:Einzelner Wert 39,1 zur letzten Klasse dazugeschlagen.

Äußeren Randklassen offen lassen, denn Normalverteilung i für definiert.

Normalverteilungswerte: Erste Klasse bzw. Kategorie:

=





Ca. 3% aller Staaten haben Akademikerquote von höchstens 15.   Zweite Kategorie:

=





j=3:


usw.

j=8: Letzte Kategorie. Ganze Fläche ab 33 bis  :







Für erwartete Häufigkeit Wahrscheinlichkeiten mit multiplizieren. Ergebnisse

Vier Kategorien haben eine erwartete Häufigkeit von unter 5. Zu viele! Bei acht Kategorien darf höchstens eine Kategorie fünf unterschreiten. Die beiden ersten und die beiden letzten Kategorien verschmelzen. Nun sechs Kategorien.   Neue Aufteilung der Klassen und ihre Wahrscheinlichkeiten .


Wir berechnen wieder wie oben die hypothetischen Wahrscheinlichkeiten mit ihren erwarteten Häufigkeiten, z.B.






Dann bilden wir die Differenzen zwischen beobachteter und erwarteter Häufigkeit, quadrieren die Differenz und teilen durch die erwartete Häufigkeit, z.B.





Die Summe ergibt 2,8.

Prüfgröße ist -verteilt mit Freiheitsgraden.


Es sind sechs Kategorien übriggeblieben, es wurden Parameter,


nämlich und , geschätzt.

Also hat Y Freiheitsgrade.


Der kritische Wert für die Ablehnung ist


Da ist, kann nicht abgelehnt werden.


Endgültige Kategorieneinteilung der Akademikerquoten und Berechnung des Prüfwerts:


mit den Spalten

(a): (b): (c):


Wollen wir durch die Nichtablehnung der Nullhypothese bestätigt wissen, dass die Daten normalverteilt sind, sollten wir den Ablehnungsbereich größer wählen, zum Beispiel . Wir würden hier den kritischen Wert



erhalten. Damit würde   ebenfalls nicht abgelehnt werden, und wir könnten die Daten als normalverteilt vermuten.

  Hier noch mal die Tabelle von oben fertig zusammengefasst:


mit den Spalten (a): Klassennummer (b): Klassenuntergrenze (c): Klassenobergrenze\\ (d): beobachtete Häufigkeit (e): ) (f): ) (g): hypothetische Wahrscheinlichkeit (h): erwartete Häufigkeit Aufgabe 2

Ein renommierter Sternekoch behauptet, dass bei entsprechender Qualität des Essens die Gäste auch vegetarische und sogar vegane Gerichte in ausreichender Zahl nachfragen. Er schätzt die Bestellquoten wie unten angegeben:

Essensart Bestellquote Beobachtete Häufigkeit Erwartete Häufigkeit Essen mit Fleisch 0,5 120 Vegetarisches Essen 0,3 60 Veganes Essen 0,2 20

Summe	 	 	 	 		


Die jeweiligen Zahlen der n=200 Kunden, die sich für ein Gericht entschieden haben, sind in der obigen Tabelle aufgeführt.

Prüfen Sie die Verteilungshypothese, dass sich die Anteile der Bestellungen wie vom Koch angegeben aufteilen (α = 0,1). Verwenden Sie für die Zwischenwerte die obige Tabelle.


Die Hypothese wird abgelehnt, falls die Prüfgröße χ^2……………………………………ist.   Es ergibt sich für die Prüfgröße χ^2 Ansatz





Ergebnis


H0 wird …………………………………………………………, also



Die Beobachtungen zweier Merkmale X und Y liegen als gemeinsame klassierte Häufigkeitsverteilung vor mit n und m Kategorien und den dazugehörigen gemeinsamen Häufigkeiten nij (i = 1, …,n; j = 1, …,m) vor. Zur Prüfung der Hypothese H0: „X und Y sind stochastisch unabhängig“ verwendet man die Prüfgröße

Es soll jedes sein. Falls diese Forderung nicht gegeben ist, müssen so viele Zeilen und/oder Spalten zusammengefasst werden, bis die Vorgabe erfüllt ist.

Die Hypothese, dass X und Y stochastisch unabhängig sind, wird abgelehnt, wenn χ2 > χ2(1 - α; (m – 1)(n - 1)) ist, als (1-α)-Quantil der χ2-Verteilung mit (m-1)(n-1) Freiheitsgraden.

Bemerkung: Dieser Test kann auch für die Prüfung der stochastischen Unabhängigkeit zweier Ereignisse verwendet werden. Man spricht hier von einem Vierfelder-Test.