Benutzer:Philipendula/SpielwieseLück
-Tests
[Bearbeiten]Unabhängigkeitstest
[Bearbeiten]Der Unabhängigkeitstest, auch Kontingenztest genannt, prüft, ob zwei Merkmale stochastisch unabhängig sind. Wie schon die letztere Bezeichnung andeutet, verwenden wir hierfür eine Kontingenztabelle. Dieser Test wird im Allgemeinen in einem Atemzug mit dem Anpassungstest verwendet, denn die Vorgehensweise ist ähnlich - wir vergleichen auch hier die beobachteten Häufigkeiten mit den erwarteten und erhalten daraus eine -verteilte Prüfgröße.
Beispiel: Kreditwürdigkeitsprüfung
Hängt Kreditwürdigkeit eines Darlehensnehmers von der Art der Wohnung ab?
Im Rahmen einer Studie zur Kreditwürdigkeit wurden die Daten eines Kreditinstituts ausgewertet. Man untersuchte unter anderem, ob die Zahlungsmoral des Kunden davon abhängt, ob er ein Wohnungseigentum oder eine gemietete Wohnung hat, oder ob er kostenlos wohnt. Es ergab sich die Tabelle
in Anteilen ausgedrückt
Wir können nun die verschiedenen Eigenschaften als Ereignisse definieren:
: Kunde ist nicht kreditwürdig
: Kunde ist kreditwürdig
wobei natürlich gilt.
: Der Kunde besitzt die Wohnung
: Der Kunde hat die Wohnung gemietet
: Der Kunde kann die Wohnung kostenlos nutzen
Wir interessieren uns für die Frage, ob möglicherweise die Zahlungsmoral eines Kunden von seiner Wohnsituation abhängt. Wir testen also die Hypothese:
- : Wohnsituation und Kreditwürdigkeit sind stochastisch unabhängig.
bzw.
- : Die Ereignisse , und , , sind stochastisch unabhängig.
Wenn diese Hypothese abgelehnt wird, kann man möglicherweise von der Wohnsituation auf die Kreditwürdigkeit des Kunden schließen.
Sehen wir uns nun die Konzeption des Testes an:
Es gilt in der Wahrscheinlichkeitsrechnung das Gesetz: Sind die Ereignisse und stochastisch unabhängig, gilt
- .
Sind also und tatsächlich unabhängig, müsste in der Stichprobe der Anteil der Personen, die nicht kreditwürdig sind und Wohneigentum besitzen, ungefähr bei
liegen. ist der erwartete Anteil, falls und stochastisch unabhängig sind. Dann vergleichen wir den beobachteten Anteil der Nichtkreditwürdigen mit Wohneigentum mit dem hypothetischen , und ebenso die restlichen Ereignisse. Sind die Differenzen zu groß, lehnen wir die Hypothese ab.
Um eine -verteilte Prüfgröße zu erhalten, nehmen wir aber nicht die Anteile, sondern die absoluten Häufigkeiten. Weiter oben haben wir die beobachteten Häufigkeiten schon gegeben. Nun ermitteln wir noch die erwarteten Häufigkeiten:
Wir multiplizieren zunächst die Randsummen miteinander:
\\
Wir sehen schon den riesigen Zahlen der Tabelle an, dass die Vergleichbarkeit mit den beobachteten Häufigkeiten von der Größenordnung her nicht gegeben ist. Wir müssen also die obigen Produkte noch durch teilen und erhalten dann die Tabelle der erwarteten Häufigkeiten , z.B.
Jetzt können wir die Prüfgröße y konkret berechnen. Wir bilden wieder quadrierte Differenzen zwischen beobachteter und erwarteter Häufigkeit und teilen die Quadrate noch durch die erwarteten Häufigkeiten. Wir erhalten damit den Stichprobenwert
Der kritische Wert für die Ablehnung ist das -Quantil der -Verteilung mit Freiheitsgraden, wobei die Zahl der Zeilen und die Zahl der Spalten der Kontingenztabelle darstellt. Das wäre in unserem Fall
Unser Stichprobenwert ist größer als 4,61. Wir lehnen also ab. Tatsächlich scheint sich die Wohnsituation auf die Kreditwürdigkeit auszuwirken.
Vor allem haben die Werte 12,52, 6 und 5,37 stark zu beigetragen. Bei 12,52 ist der tatsächliche Anteil größer als der erwartete. Die Wahrscheinlichkeit, bei Wohneigentum zu scheitern, ist also deutlich größer. Dagegen scheint Zahlungsunfähigkeit bei Mietern eher seltener aufzutreten (6). Ebenso sind dann auch Mieter eher kreditwürdig (5,37).
Nun wollen wir die Vorgehensweise allgemein gültig formulieren.
Test auf Unabhängigkeit zweier Variablen:
Gegeben ist eine Kontingenztabelle mit vielen Ereignissen in den Zeilen und vielen Ereignissen in den Spalten. Die Elemente der Kontigenztabelle sind die beobachteten gemeinsamen Häufigkeiten und die jeweiligen Randhäufigkeiten bzw. . Zu jeder beobachteten Häufigkeit wird die erwartete Häufigkeit
gebildet. Die Prüfgröße der Realisation
ist näherungsweise -verteilt mit Freiheitsgraden\.
Wenn ist, wird die Hypothese abgelehnt.
Dieser Test kann für Daten aller Skalenniveaus verwendet werden. Bei einem stetigen Merkmal müssen wieder analog zum Verteilungstest Klassen gebildet werden, deren Häufigkeiten in die Tabelle eingehen. Für die verlangten Mindestwerte der erwarteten Häufigkeiten verwenden wir die Faustregel des Verteilungstests.