Statistik: Prüfung des Zusammenhangs zweier Merkmale
Stochastische Unabhängigkeit
Die Beobachtungen zweier Merkmale X und Y liegen als gemeinsame klassierte Häufigkeitsverteilung vor mit n und m Kategorien und den dazugehörigen gemeinsamen Häufigkeiten nij (i = 1, …,n; j = 1, …,m) vor. Zur Prüfung der Hypothese H0: „X und Y sind stochastisch unabhängig“ verwendet man die Prüfgröße
Es soll jedes sein. Falls diese Forderung nicht gegeben ist, müssen so viele Zeilen und/oder Spalten zusammengefasst werden, bis die Vorgabe erfüllt ist.
Die Hypothese, dass X und Y stochastisch unabhängig sind, wird abgelehnt, wenn χ2 > χ2(1 - α; (m – 1)(n - 1)) ist, als (1-α)-Quantil der χ2-Verteilung mit (m-1)(n-1) Freiheitsgraden.
Bemerkung: Dieser Test kann auch für die Prüfung der stochastischen Unabhängigkeit zweier Ereignisse verwendet werden. Man spricht hier von einem Vierfelder-Test.
Korrelation
Normalverteilung beider Merkmale
Die Merkmale X und Y sind normalverteilt. Es wird die spezielle Nullhypothese H0: ρxy = 0 geprüft. Man schätzt den Korrelationskoeffizienten ρ mit dem Korrelationskoeffizienten r nach Bravais-Pearson und verwendet die Prüfgröße
H0: ρxy = 0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
Wird H0 abgelehnt, geht man davon aus, dass X und Y korreliert sind. Sie sind dann auch stochastisch abhängig, so dass dieser Test im Ablehnungsfall auch die stochastische Unabhängigkeit erfasst. Bei Nichtablehnung können die Merkmale trotzdem abhängig sein, denn der Korrelationskoeffizient misst bekanntlich nur die lineare Abhängigkeit.
Wird H0: ρxy = ρ0 ≠ 0 geprüft, hat r eine sog. nichtzentrale Verteilung, die nicht mehr ohne weiteres berechnet werden kann und nur noch näherungsweise mit der sog. Fisherschen Transformation angebbar ist.
Unbekannte Verteilung beider Merkmale
Die Merkmale X und Y sind beliebig verteilt. Es wird die spezielle Nullhypothese H0: ρxy = 0 geprüft. Man schätzt den Korrelationskoeffizienten ρ mit dem Rangkorrelationskoeffizienten nach Spearman-Pearson rSP.
Für n > 10 verwendet man die Prüfgröße
H0: ρxy = 0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
Parameter der linearen Regression
Ausgegangen wird von der unbekannten Regressionsgeraden
und der Schätzung
- .
Die Störgröße u ist normalverteilt:
Die Varianz der Störgröße σ2 wird geschätzt mit
Es ist auch
Steigungskoeffizent β
β wird geschätzt durch b. Unter H0 ist .
Verwendet wird die Prüfgröße
die unter H0 t-verteilt ist mit n-2 Freiheitsgraden.
- H0: β = β0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
- H0: β ≤ β0 wird abgelehnt, falls t > t(1-α/2; n - 2) ist.
- H0: β ≥ β0 wird abgelehnt, falls t < - t(1-α/2; n - 2) ist.
In der Praxis wird meistens H0: β = 0 getestet. Wird die Hypothese nicht abgelehnt, scheint x unerheblich für die Erklärung von y zu sein.
Absolutglied α
α wird geschätzt durch a. Unter H0 ist
Für den Test verwendet man die Prüfgröße
- ,
die unter H0 t-verteilt ist mit n-2 Freiheitsgraden.
- H0: α = α0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
- H0: α ≤ α0 wird abgelehnt, falls t > t(1-α/2; n - 2) ist.
- H0: α ≥ α0 wird abgelehnt, falls t < - t(1-α/2; n - 2) ist.
In der Praxis wird meistens H0: α = 0 getestet. Wird die Hypothese nicht abgelehnt, geht die wahre Regressionsgerade möglicherweise durch den Nullpunkt des Koordinatensystems.