Mathematik: Statistik: Prüfung des Zusammenhangs zweier Merkmale

Aus Wikibooks

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Stochastische Unabhängigkeit

Die Beobachtungen zweier Merkmale X und Y liegen als gemeinsame klassierte Häufigkeitsverteilung vor mit n und m Kategorien und den dazugehörigen gemeinsamen Häufigkeiten nij (i = 1, …,n; j = 1, …,m) vor. Zur Prüfung der Hypothese H0: „X und Y sind stochastisch unabhängig“ verwendet man die Prüfgröße

\chi^2 = \sum_i  \sum_j   \frac  {(n_{ij}-\frac{n_{i.}n_{.j}}{n})^2} {\frac{n_{i.}n_{.j}}{n}}

Es soll jedes \frac{n_{i.}n_{.j}}{n} \ge 5 sein. Falls diese Forderung nicht gegeben ist, müssen so viele Zeilen und/oder Spalten zusammengefasst werden, bis die Vorgabe erfüllt ist.

Die Hypothese, dass X und Y stochastisch unabhängig sind, wird abgelehnt, wenn χ2 > χ2(1 - α; (m – 1)(n - 1)) ist, als (1-α)-Quantil der χ2-Verteilung mit (m-1)(n-1) Freiheitsgraden.

Bemerkung: Dieser Test kann auch für die Prüfung der stochastischen Unabhängigkeit zweier Ereignisse verwendet werden. Man spricht hier von einem Vierfelder-Test.

Korrelation

Normalverteilung beider Merkmale

Die Merkmale X und Y sind normalverteilt. Es wird die spezielle Nullhypothese H0: ρxy = 0 geprüft. Man schätzt den Korrelationskoeffizienten ρ mit dem Korrelationskoeffizienten r nach Bravais-Pearson und verwendet die Prüfgröße

t = \frac  {r}{\sqrt {\frac{1-r^2}{n-2}}}

H0: ρxy = 0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.

Wird H0 abgelehnt, geht man davon aus, dass X und Y korreliert sind. Sie sind dann auch stochastisch abhängig, so dass dieser Test im Ablehnungsfall auch die stochastische Unabhängigkeit erfasst. Bei Nichtablehnung können die Merkmale trotzdem abhängig sein, denn der Korrelationskoeffizient misst bekanntlich nur die lineare Abhängigkeit.

Wird H0: ρxy = ρ0 ≠ 0 geprüft, hat r eine sog. nichtzentrale Verteilung, die nicht mehr ohne weiteres berechnet werden kann und nur noch näherungsweise mit der sog. Fisherschen Transformation angebbar ist.

Unbekannte Verteilung beider Merkmale

Die Merkmale X und Y sind beliebig verteilt. Es wird die spezielle Nullhypothese H0: ρxy = 0 geprüft. Man schätzt den Korrelationskoeffizienten ρ mit dem Rangkorrelationskoeffizienten nach Spearman-Pearson rSP.

Für n > 10 verwendet man die Prüfgröße

t = \frac  {r_{SP}}{\sqrt {\frac{1-r_{SP}^2}{n-2}}}

H0: ρxy = 0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.

Parameter der linearen Regression

Ausgegangen wird von der unbekannten Regressionsgeraden

y = α + βx + u

und der Schätzung

y = a + bx + d.

Die Störgröße u ist normalverteilt:

u \to N(0;\sigma^2).

Die Varianz der Störgröße σ2 wird geschätzt mit

s^2 = \frac  {1}{n-2} \sum_i  (d_i -\bar d)^2 =  \frac  {1}{n-2} \sum_i  d_i ^2

Es ist auch

\sum_i  d_i ^2 = (1-r^2) \cdot  \sum_i  (y_i -\bar y)^2


Steigungskoeffizent β

β wird geschätzt durch b. Unter H0 ist  b \to N( \beta ; \frac { \sigma^2}{\sum_i  (x_i - \bar x)^2}) .

Verwendet wird die Prüfgröße

t = \frac  {b-\beta_0}{\frac{s}{\sqrt {\sum_i  (x_i -\bar x)}^2}}

die unter H0 t-verteilt ist mit n-2 Freiheitsgraden.

  • H0: β = β0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
  • H0: β ≤ β0 wird abgelehnt, falls t > t(1-α/2; n - 2) ist.
  • H0: β ≥ β0 wird abgelehnt, falls t < - t(1-α/2; n - 2) ist.

In der Praxis wird meistens H0: β = 0 getestet. Wird die Hypothese nicht abgelehnt, scheint x unerheblich für die Erklärung von y zu sein.

Absolutglied α

α wird geschätzt durch a. Unter H0 ist

 a \to N(\alpha_0; \frac {\sigma^2 \cdot \sum_i x_i^2}{ \sum_i  (x_i -\bar x)^2})

Für den Test verwendet man die Prüfgröße

t = \frac {a-\alpha_0}{s} \sqrt { \frac {\sum_i  (x_i -\bar x)^2}{\sum_i  x_i^2}},

die unter H0 t-verteilt ist mit n-2 Freiheitsgraden.

  • H0: α = α0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
  • H0: α ≤ α0 wird abgelehnt, falls t > t(1-α/2; n - 2) ist.
  • H0: α ≥ α0 wird abgelehnt, falls t < - t(1-α/2; n - 2) ist.

In der Praxis wird meistens H0: α = 0 getestet. Wird die Hypothese nicht abgelehnt, geht die wahre Regressionsgerade möglicherweise durch den Nullpunkt des Koordinatensystems.


↑Test auf Varianz
↑↑Inhaltsverzeichnis Statistik
Persönliche Werkzeuge