Formelsammlung Statistik/ Zufallsvariablen und Verteilungsmodelle

diskrete Zufallsvariablen

Ein Merkmal X, das aufgrund zufälliger Ereignisse eine (endliche) Menge

von Ausprägungen x₁, x₂ ... annehmen kann, nennt man diskrete

Zufallsvariable X.

Eindimensionale Zufallsvariablen

Wahrscheinlichkeitsfunktion:

f(x)={\begin{cases}P(X=x_{i})=p_{i},&x=x_{i}\in \{x_{1},x_{2},...,x_{k}..\}\\0&sonst\end{cases}}

Verteilungsfunktion:

F(x)=P(X\leq x)=\sum _{i:x_{i}\leq x}f(x_{i}).

Normiertheit:

\sum _{i=1}^{k}p_{i}=1.

Erwartungswert

E(X)=\mu =\sum _{i=1}^{k}x_{i}\cdot p_{i}=\sum _{i=1}^{k}x_{i}\cdot f(x_{i})\;,

Varianz

Var(X)=\sum _{i=1}^{k}(x_{i}-E(X))^{2}\cdot f(x_{i})\;.

bzw. mit dem Verschiebungssatz

Var(X)=\left(\sum _{i=1}^{k}x_{i}^{2}\cdot f(x_{i})\right)-E(X^{2})=

Standardabweichung

\sigma =+{\sqrt {Var(X)}}.

Varianz der Summe unabhängiger Zufallsvariablen

Var(X+Y)=Var(X)+Var(Y)\;.

Mehrdimensionale Zufallsvariablen

Einzelwahrscheinlichkeit

P(X=x_{1})=f_{X}(x_{1})=\sum _{j=1}^{m}f_{X,Y}(x_{1};y_{j})\quad

Kovarianz

covXY=\sum _{i=1}^{n}\sum _{j=1}^{m}(x_{i}-E(X))(y_{j}-E(Y))f_{X,Y}(x_{i};y_{j})

bzw. mit dem Verschiebungssatz

covXY=\sum _{i=1}^{n}\sum _{j=1}^{m}x_{i}\cdot y_{j}\cdot f_{X,Y}(x_{i};y_{j})-E(X)\cdot E(Y)

Korrelationskoeffizient r_xy nach Bravais-Pearson

für metrisch skalierte Merkmale zweier statistischer Variablen x und y

r={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}},

mit ${\bar {x}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}x_{i}$ als dem arithmetischen Mittel des Merkmals x. Mit Hilfe des Verschiebungssatzes:

r={\frac {\sum _{i=1}^{n}x_{i}\cdot y_{i}-n\cdot {\bar {x}}\cdot {\bar {y}}}{\sqrt {(\sum _{i=1}^{n}x_{i}^{2}-n\cdot ({\bar {x}})^{2})\cdot (\sum _{i=1}^{n}y_{i}^{2}-n\cdot ({\bar {y}})^{2})}}}

Rangkorrelationskoeffizient nach Spearman

für Variablen, die stark von der Normalverteilung abweichen

sowie ordinalskalierte Variablen

Nach Ordnung der einzelnen Beobachtungen von x bzw. y der Größe nach wird

jedem Wert wird seine Rangzahl rg(x_i) und rg(y_i) zugewiesen. Damit:

r_{SP}={\frac {\sum _{i}(rg(x_{i})-{\overline {rg(x)}})(rg(y_{i})-{\overline {rg(y)}})}{{\sqrt {\sum _{i}(rg(x_{i})-{\overline {rg(x)}})^{2}}}{\sqrt {\sum _{i}(rg(y_{i})-{\overline {rg(y)}})^{2}}}}}

.

diskrete Verteilungsmodelle

Binomialverteilung

Für eine binomialverteilte Zufallsvariable X mit den Parametern n und θ (0 ≤ θ ≤ 1) lautet die Wahrscheinlichkeitsfunktion

P(X=x)=b(x|n;\theta )={\begin{cases}{n \choose x}\theta ^{x}(1-\theta )^{n-x}&{\text{falls }}x=0,1,\dots ,n\\0&{\text{sonst.}}\end{cases}}

Erwartungswert

E(X)=n\cdot \theta

Varianz

Var(X)=n\cdot \theta \cdot (1-\theta )

Hypergeometrische Verteilung

Eine Zufallsvariable X ist hypergeometrisch verteilt mit den Parametern

N (Grundgesamtheit), M ("Kugeln der ersten Sorte") und n (Stichprobenumfang),

wenn ihre Wahrscheinlichkeitsfunktion lautet

P(X=x)=h(x|N;M;n)={\begin{cases}{\frac {{M \choose x}\cdot {N-M \choose n-x}}{N \choose n}}&{\mbox{ für x = 0, 1, ... , n}}\\0&{\mbox{ sonst}}\end{cases}}

Erwartungswert

E(X)=n\cdot {\frac {M}{N}}=n\cdot \Theta

Varianz

$Var(X)=n\cdot {\frac {M}{N}}\cdot \left(1-{\frac {M}{N}}\right){\frac {N-n}{N-1}}.$

Der Bruch ${\frac {N-n}{N-1}}$ wird Korrekturfaktor genannt.

Poissonverteilung

Wahrscheinlichkeitsfunktion ( $\lambda >0$ )

P(X=x)=p(x|\lambda )={\begin{cases}{\frac {e^{-\lambda }\cdot \lambda ^{x}}{x!}}&{\mbox{ für x = 0, 1, ... }}\\0&{\mbox{ sonst}}\end{cases}}

Erwartungswert und Varianz

$E(X)=Var(X)=\lambda$

stetige Zufallsvariablen

Eine stetige Zufallsvariable kann in jedem beschränkten Intervall unendlich viele Ausprägungen annehmen.

Ihre Verteilung lässt sich durch eine Dichtefunktion f(x) beschreiben.

(f(x) ist hier keine Wahrscheinlichkeit, sondern eine Dichte !)

Verteilungsfunktion

P(X\leq a)=F(a)=\int \limits _{-\infty }^{a}f(x)dx

Es gilt: P(X = a) = 0.

Wegen P(X = a) = 0 ist P(X ≤ a) = P(X < a) und P(X > a) = P(X ≥ a)

Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist.

Die Dichtefunktion f(a) kann auch größer als 1 werden.

Ausgehend von $P(X\leq x)=p$ ist das p-Quantil x(p) der Wert x, der zu einer gegebenen Wahrscheinlichkeit p gehört. Speziell x(0,5) ist der Median.

Erwartungswert

E(X)=\int \limits _{-\infty }^{\infty }x\cdot f(x)dx,

falls E(X) existiert, d.h. nicht unendlich wird.

Varianz

Var(X)=\int \limits _{-\infty }^{\infty }(x-E(X))^{2}\cdot f(x)dx

wobei auch hier der Verschiebungssatz angewendet werden kann:

Var(X)=\left(\int \limits _{-\infty }^{\infty }x^{2}f(x)dx\right)-(E(X))^{2}

stetige Verteilungsmodelle

Stetige Gleichverteilung (Rechteckverteilung)

Dichtefunktion der Gleichverteilung im Intervall [a,b]

f(x)={\begin{cases}{\frac {1}{b-a}}&{\text{für }}a\leq x\leq b\\0&{\text{sonst.}}\end{cases}}

Erwartungswert

E(X)={\frac {a+b}{2}}

Varianz

Var(X)=\lambda \int \limits _{a}^{b}x^{2}\cdot {\frac {1}{b-a}}dx={\frac {(b-a)^{2}}{12}}

Exponentialverteilung

Dichtefunktion der Exponentialverteilung

f(x)={\begin{cases}\lambda \cdot e^{-\lambda x}&{\text{für }}x\geq 0\\0&{\text{für }}x<0\\\end{cases}}

Verteilungsfunktion

P(X\leq x)=1-e^{-\lambda x}

Erwartungswert

E(X)=\lambda \int \limits _{0}^{\infty }x\cdot e^{-\lambda x}dx={\frac {1}{\lambda }}

Varianz

Var(X)={\frac {1}{\lambda ^{2}}}

.

Normalverteilung

Für eine Zufallsvariable $X\propto N(\mu ,\sigma ^{2})$ lautet die Dichtefunktion der NV

f(x)={\frac {1}{{\sqrt {2\pi }}\cdot \sigma }}\cdot e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

für

x\in \mathbb {R}

Normierung mit $z={\frac {x-\mu }{\sigma }}$ ergibt die Standardnormalverteilung mit der Dichtefunktion $\phi _{x}(z)\propto N(0,1)$ :

\phi _{x}(z)={\frac {1}{\sqrt {2\cdot \pi }}}\cdot e^{-{\frac {1}{2}}z^{2}}

Anm.:Es wird auch die Schreibweise $\phi _{x}(z|\mu ,\sigma ^{2})$ anstelle $N(\mu ,\sigma ^{2})$ verwendet

Erwartungswert

E(X)=\mu

Varianz

Var(X)=\sigma ^{2}

p-Quantil

Der zu einer gegebenen Wahrscheinlichkeit p zugehörige z-Wert z(p)

P(Z\leq z(p))=p

.

Beispielsweise ist z(0,975) = 1,96.

Linearkombinationen normalverteilter Zufallsvariablen

Für n normalverteilte Zufallsvariablen $X_{i}\;(i=1,...,n),{\text{ mit }}X_{i}\propto N(\mu _{i};\sigma _{i}^{2})$

ist die Linearkombination

Y=a_{0}+a_{1}X_{1}+a_{2}X_{2}+...+a_{n}X_{n}=a_{0}+\sum _{i=1}^{n}a_{i}X_{i}

ebenfalls normalverteilt mit dem Erwartungswert

E(Y)=a_{0}+\sum _{i=1}^{n}a_{i}E(X_{i})=a_{0}+\sum _{i=1}^{n}a_{i}\mu _{i}

.

Falls die $X_{i}{\text{ }}(i=1,...,n)$ stochastisch unabhängig sind, gilt für die Varianz

Var(Y)=\sum _{i=1}^{n}a_{i}^{2}\cdot (X_{i})=\sum _{i=1}^{n}a_{i}^{2}\sigma _{i}^{2}

.

Die Varianz muss größer Null sein, deshalb muss zudem $a_{j}\neq 0$ für mindestens ein $j\in \{1,\dots ,n\}$ gelten.

Verteilung des Stichprobendurchschnitts

Sind die n Zufallsvariablen $X_{i}$ (i = 1, ... , n) sämtlich normalverteilt

mit gleichem μ und gleichem σ², ist die Linearkombination

X mit a₀ = 0, a₁ = a₂ = ... = a_n = 1/n, also : ${\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$

normalverteilt dem Erwartungswert

E({\bar {X}})={\frac {1}{n}}\sum _{i=1}^{n}\mu =\mu

und, falls die Xi (i = 1, ... , n) stochastisch unabhängig sind, mit der Varianz

Var({\bar {X}})={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sigma ^{2}={\frac {\sigma ^{2}}{n}}

.

CHI-Quadrat-verteilung

Die $X_{1},X_{2},...X_{n}$ seien unabhängige standardnormalverteilte Zufallsvariablen.

Dann ist die Verteilung der Zufallsvariablen $Z=X_{1}^{2}+X_{2}^{2}+...+X_{n}^{2}$

chi-quadrat verteilt mit n Freiheitsgraden $Z\propto \chi ^{2}(n)$

Erwartungswert:

E(Z)=n

Varianz

Var(Z)=2n

.

Anm.: Die Gruppe der Hypothesentests mit $\chi ^{2}$ -Verteilung bezeichnet man als $\chi ^{2}$ -Test.

Hierunter sind mehrere Tests zu verstehen:

Verteilungstest oder Anpassungstest: Hier wird geprüft, ob vorliegende Daten auf eine bestimmte Weise verteilt sind.

Unabhängigkeitstest: Hier wird geprüft, ob zwei Merkmale stochastisch unabhängig sind.

Homogenitätstest: Hier wird geprüft, ob zwei oder mehr Stichproben derselben Verteilung bzw. einer homogenen Grundgesamtheit entstammen.

t- (Student-) Verteilung

Für die unabhängigen Variablen $X$ (standardnormalverteilt) und $Z\;(Z\propto \chi ^{2}(n))$ ist die Variable

T={\frac {X}{\sqrt {Z/n}}}

t-verteilt $(T\propto t(n)\;)$ mit n Freiheitsgraden.

Erwartungswert

E(T)=0

für

(m\geq 2)

Varianz

Var(T)={\frac {n}{n-2}}

für

(n\geq 3)

Fisher- Verteilung

Für die unabhängigen Variablen $X\propto \chi ^{2}(m)$ und $Y\propto \chi ^{2}(n)$ ist die Verteilung der Variablen

Z={\frac {X/m}{Y/n}}

Fisher- oder F-verteilt $(Z\propto F(m,n)\;)$ mit den Freiheitsgraden m und n.

Erwartungswert

E(T)={\frac {n}{n-2}}

für

(n\geq 3)

Varianz

Var(Z)={\frac {2n^{2}(n+m-2)}{m(n-4)(n-2)^{2}}}

für

(n\geq 3)

Approximation von Verteilungen

Gesuchte Verteilung	Approximation durch
$P(X\leq x)$	Binomial	Poisson	Normal
Binomial $B(x\|n\theta )\approx$	---	$P(x\|n\theta )$ ${\mbox{ falls }}n\geq 50$ ${\mbox{ und }}\theta \leq 0,05$	$\Phi (x+0,5\|n\cdot \theta ;n\cdot \theta \cdot (1-\theta ))$ ${\mbox{ falls }}n>{\frac {9}{\theta (1-\theta )}}$
Hypergeometrische $H(x\|N;M;n)\approx$	$B(x\|n{\frac {M}{N}})$ ${\mbox{ falls }}{\frac {n}{N}}<0,05$	über Binomialverteilung	$\Phi (x+0,5\|n\cdot {\overset {\text{ }}{\frac {M}{N}}};n\cdot {\frac {M}{N}}\cdot (1-{\frac {M}{N}})\cdot {\frac {N-n}{N-1}}$ ${\mbox{ falls }}n>{\frac {9}{{\frac {M}{N}}\cdot (1-{\frac {M}{N}})}}$ ${\mbox{ und }}{\underset {\text{ }}{\frac {n}{N}}}<0,05$
Poisson $P(x\|\lambda )\approx$	---	---	$\Phi (x+0,5\|\lambda ;\lambda ){\mbox{ falls }}\lambda >9$
χ²-Verteilung $\chi ^{2}(x\|n)$ → $P({\sqrt {2X}}\leq {\sqrt {2x}})\approx$	---	---	$\Phi ({\overset {\text{ }}{\sqrt {2x}}}\|{\sqrt {2n-1}};1)$ ${\mbox{ falls }}n>30$
t-Verteilung $t(x\|n)\approx$	---	---	$\Phi (x\|0;1){\mbox{ falls }}n>30$
F-Verteilung $F(x\|m;n)\approx$	---	---	$\Phi (x\|0;1){\mbox{ falls }}$ $m>30{\mbox{ und }}n>30$