Statistik: Regressionsanalyse

Einfaches lineares Regressionsmodell

Einführung mit Beispiel einer Preis-Absatz-Funktion

Streudiagramm von Preis und abgesetzter Menge an Sektflaschen

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wurde in n = 6 Geschäften ein Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis x (in Euro) einer Flasche und die verkaufte Menge y an Flaschen:

Laden	i	1	2	3	4	5	6
Preis einer Flasche	x_i	20	16	15	16	13	10
verkaufte Menge	y_i	0	3	7	4	6	10

Modell

Wahre unbekannte und geschätzte Regressionsgerade

Man geht von folgendem statistischen Modell aus:

Man betrachtet zwei Variablen, die vermutlich ungefähr in einem linearen Zusammenhang

y\approx \alpha +\beta x

stehen. Dabei sind x als unabhängige und y als abhängige Variable definiert. Man nennt auch x erklärende oder exogene Variable und y Zielvariable oder endogene Variable. Es existieren von x und y je n Beobachtungen x_i und y_i (i = 1, ... , n). Der funktionale Zusammenhang y = f(x) zwischen x und y kann nicht exakt festgestellt werden, da α + βx von einer Störgröße u überlagert wird, die nichterfassbare Einflüsse (menschliches Verhalten, Messungenauigkeiten usw.) mit einschließt. Es ergibt sich also das Modell

y=\ \alpha +\beta x+u

mit den einzelnen Beobachtungen

y_{i}=\alpha +\beta x_{i}+u_{i}\;.

Da α und βx nicht bekannt sind, kann y auch nicht in die Komponenten α + βx und u zerlegt werden.

Es soll eine mathematische Schätzung für die Parameter α und β durch zwei Konstanten a und b gefunden werden, und zwar so, daß sich ergibt

\ y_{i}=a+bx_{i}+d_{i}

,

wobei d_i das Residuum bezeichnet, die Abweichung des beobachteten y- Wertes vom geschätzten. Es gibt verschiedene Möglichkeiten, die Regressiongerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen d_i der Punkte von dieser Ausgleichsgeraden minimiert wird.

Beispiel zum Modell der Grundgesamtheit

In einem breit angelegten Versuch wird ein Flüssigdünger an in Nährlösung gezogenen Peperonis untersucht. Es wird wöchentlich jeder Pflanze eine bestimmte Menge Dünger verabreicht. Nach zwei Monaten wird der Gesamtertrag einer Pflanze gewogen. Die Abhängigkeit des Ertrags y (kg) von der Düngermenge x (ml) lässt sich beschreiben als

y=\alpha +\beta x+u=1+0,01x+u\;,

wobei natürlich kein Mensch diese Gerade kennt, wir können nur einzelne Versuche machen. In der Tabelle 1 sind für die Düngergaben 40, 50, ... ,120 ml für jeweils 8 Pflanzen die resultierenden Erträge aufgeführt. Man sieht, dass die Erträge um $\alpha +\beta \cdot x$ schwanken, was natürlich an der Störgröße $u=y-(\alpha +\beta \cdot x)$ liegt.

Betrachten wir die Störgröße bei einer Düngermenge von x₃ = 60 ml. Es wurden hier die Erträge von 150 Peperoni-Pflanzen erfasst. Wenn man die Realisationen der Störgröße u₃ in einem Dotplot abträgt (Grafik 2), erkennt man, dass die Werte normalverteilt sein könnten. Zu x₃ gehört also eine eigene Wahrscheinlichkeitsverteilung der Störgröße, ebenso zu x₁, x₂ usw. In der Grafik 3 sind diese verschiedenen Verteilungen der u exemplarisch angedeutet.

Grafik 2: Dotplot von 150 Realisationen der Störgröße bei x = 60

Grafik 3: Verteilung der Störgrößen auf der Regressionsgeraden

Axiome des linearen Regressionsmodells

Damit dieses Verfahren sinnvolle Ergebnisse liefert, wurden für das Lineare Regressionsmodell bestimmte verteilungstheoretische Annahmen getroffen. Wir gehen aus von der Beziehung

$y_{i}=\alpha +\beta x_{i}+u_{i}\;.$

und definieren die Störgröße u_i als Zufallsvariable. Die Annahmen des linearen Regressionsmodell sind

Alle u_i haben den Erwartungswert Null: $Eu_{i}=0$ , (i = 1, ..., n) .
Alle u_i haben die gleiche Varianz (Homoskedastizität): $varu_{i}=varu_{j}$ (i,j = 1, ... , n, i ≠ j) .
Die u_i sind sämtlich stochastisch unabhängig voneinander.

Der Sinn dieser Axiome wird weiter unten erläutert.

Minimierung

Die herkömmliche Methode, die sich auf der Basis der Axiome ergibt, ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert also die summierten Quadrate der Residuen,

RSS=\sum _{i=1}^{n}d_{i}^{2}=\sum _{i=1}^{n}(y_{i}-(a+bx_{i}))^{2}\rightarrow min!

bezüglich a und b.

Wir multiplizieren die Klammer aus:

{\begin{array}{ccl}S&=&\sum _{i=1}^{n}(y_{i}-a-bx_{i})\cdot (y_{i}-a-bx_{i})\\&=&{\overset {\text{ }}{\sum _{i=1}^{n}}}(y_{i}^{2}-y_{i}a-y_{i}bx_{i}-ay_{i}+a^{2}+abx_{i}-y_{i}bx_{i}+abx_{i}+b^{2}x_{i}^{2})\\&=&{\overset {\text{ }}{\sum _{i=1}^{n}}}(y_{i}^{2}-2y_{i}a-2y_{i}bx_{i}+a^{2}+2abx_{i}+b^{2}x_{i}^{2})\\&=&{\overset {\text{ }}{\sum _{i=1}^{n}}}y_{i}^{2}-2a\sum _{i=1}^{n}y_{i}-2b\sum _{i=1}^{n}y_{i}x_{i}+na^{2}+2ab\sum _{i=1}^{n}x_{i}+b^{2}\sum _{i=1}^{n}x_{i}^{2}.\end{array}}

Wir minimieren durch Ableiten

{\frac {\partial S}{\partial a}}=-2\sum _{i=1}^{n}y_{i}+2na+2b\sum _{i=1}^{n}x_{i},

{\frac {\partial S}{\partial b}}=-2\sum _{i=1}^{n}x_{i}y_{i}+2a\sum _{i=1}^{n}x_{i}+2b\sum _{i=1}^{n}x_{i}^{2},

und Nullsetzen, was ein wenig optisch geschönt die Normalgleichungen

na+b\sum _{i=1}^{n}x_{i}=\sum _{i=1}^{n}y_{i},

a\sum _{i=1}^{n}x_{i}+b\sum _{i=1}^{n}x_{i}^{2}=\sum _{i=1}^{n}x_{i}y_{i}

ergibt.

Wir erhalten die gesuchten Regressionskoeffizienten als die Lösungen

b={\frac {\sum _{i=1}^{n}x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{\sum _{i=1}^{n}x_{i}^{2}-n{\bar {x}}^{2}}}\;

und

a={\bar {y}}-b{\bar {x}}\;,

wobei ${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ der Mittelwert, also der Durchschnitt der x-Daten ist, y entsprechend. Wegen des Verschiebungssatzes kann man b auch darstellen als

b={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}

oder, nach Erweiterung des Bruchs durch 1/(n-1),

b={\frac {s_{xy}}{s_{x}^{2}}}

mit s_xy als Kovarianz zwischen den x_iund y_i und s_x² als Varianz der x_i. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer, KQ- oder OLS-Schätzer.

Wir wollen nun für das obige Sektbeispiel die Regressionskoeffizienten bestimmen:

Preis einer Flasche	verkaufte Menge	x_i- x	y_i- y
x_i	y_i	x*	y*	xy	xx	yy	ŷ
20	0	5	-5	-25	25	25	0,09
16	3	1	-2	-2	1	4	4,02
15	7	0	2	0	0	4	5,00
16	4	1	-1	-1	1	1	4,02
13	6	-2	1	-2	4	1	6,96
10	10	-5	5	-25	25	25	9,91
90	30	0	0	-55	56	60	30,00

Wir berechnen in dem Beispiel zunächst die arithmetischen Mittel als die Koordinaten des Schwerpunktes der $n$ Messwerte bzw. der Punktwolke.

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{6}}\ 90=15\;,

entsprechend :

{\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\frac {1}{6}}\ 30=5\;

,

und dann die Regressionskoeffizienten

b={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {-55}{56}}=-0,98\;

als die Steigung der Regressionsgeraden

und

a={\bar {y}}-b{\bar {x}}=5+0,98\cdot 15=19,7

Die geschätzte Regressionsgerade lautet ${\hat {y}}=19,73-0,98x$ , so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ca. 1 Flasche sinkt.

Für die gegebenen x-Werte erhalten wir als Schätzungen ŷ

{\begin{matrix}{\hat {y}}_{1}&=&a+bx_{1}&=&19{,}73-0{,}98\cdot 20&=&0{,}09\\{\hat {y}}_{2}&=&a+bx_{2}&=&19{,}73-0{,}98\cdot 16&=&4{,}02\\&&&\vdots &&&\\{\hat {y}}_{6}&=&a+bx_{6}&=&19{,}73-0{,}98\cdot 10&=&9{,}91\end{matrix}}

Für die beobachteten Absatzwerte y bleibt das Residuum r_i übrig:

{\begin{matrix}&y_{1}&=&a+bx_{1}+d_{1}&=&{\hat {y}}_{1}+d_{1}&&\\\Rightarrow &d_{1}&=&y_{1}-{\hat {y}}_{1}&=&0-0{,}09&=&-0{,}09\\&y_{2}&=&a+bx_{2}+d_{2}&=&{\hat {y}}_{2}+d_{2}&&\\\Rightarrow &d_{2}&=&y_{2}-{\hat {y}}_{2}&=&3-4{,}02&=&-1{,}02\\&&&&\vdots &&&\\&y_{6}&=&a+bx_{6}+d_{6}&=&{\hat {y}}_{6}+d_{6}&&\\\Rightarrow &d_{6}&=&y_{6}-{\hat {y}}_{6}&=&10-9{,}91&=&0{,}09\end{matrix}}

Schätzung der Varianzen

Die Stichprobenvarianz der Residuen berechnet sich als:

s^{2}={\frac {1}{n-2}}\sum _{i}d_{i}^{2}

Man schätzt damit die Varianz der Störgröße u (eigentlich U!).

Gesetzmäßigkeiten

Bezüglich der Zielvariablen und der Residuen gilt:

$\sum _{i}d_{i}=0$ und damit ${\bar {d}}=0$ .

Die Residuen sind im Mittel Null, sie enthalten also keine Information mehr.

$\sum _{i}x_{i}d_{i}=0$

Die unabhängige Variable x und die Residuen sind orthogonal. Geometrisch bedeutet das, dass sie senkrecht aufeinander stehen. Sie sind daher unkorreliert. Die Residuen enthalten also keinerlei Information mehr, die in x steckt. Die Informationen aus x sind alle in a + bx. Nur, was von x nicht mehr erklärt werden kann, bleibt als Rest in d.

${\bar {\hat {y}}}={\frac {1}{n}}\sum _{i}(y_{i}-d_{i})={\frac {1}{n}}\sum _{i}y_{i}-{\frac {1}{n}}\sum _{i}d_{i}={\bar {y}}.$

Das arithmetische Mittel der ŷ ist gleich dem Mittel von y.

Vorteile der Minimum-Quadrat-Methode:

Positive und negative Abweichungen heben sich bei Summenbildung nicht auf.
Große Residuen werden im Verhältnis stärker gewichtet als kleine.
Der Durchschnitt der Residuen ist Null.
Die Regressionskoeffizienten können mit einer Formel berechnet werden.

Nachteil der Minimum-Quadrat-Methode:

Ein Ausreißer bei x: Die Gerade wird nach oben gezogen

Nicht resistent gegenüber Ausreißern in den Daten.

Sekt-Beispiel:

Wegen eines Erhebungsfehlers wurde für x₆ statt 10 der Wert 70 eingetippt. Die neue Regressionsgerade ergibt sich als ŷ = 2,51 + 0,10x. Dieser Ausreißer beeinträchtigt das Ergebnis so sehr, dass sogar das Vorzeichen der Steigung umgedreht wird. Eigentlich sollte die Regressionsgerade durch die Punktwolke auf der linken Seite der Grafik führen und fallend sein. Der Ausreißer hebelt die Gerade regelrecht aus: Man spricht von einem High-Leverage-Value, also einem Wert mit großer Hebelkraft. Wir erkennen sofort, dass dieser Ausreißer die Analyse völlig wertlos gemacht hat. In dem speziellen Sachzusammenhang könnte man sogar einen fatalen Fehlschluss machen: Bei Luxusgütern sind steigende Preis-Absatz-Funktionen denkbar, weil ein hoher Preis statusfördernd ist. Man könnte also fälschlicherweise annehmen, dass dieser Zusammenhang auch hier gilt. Man würde also einen sehr hohen Preis festlegen und am Markt scheitern.

Bestimmtheitsmaß

Ein Kriterium für die Beurteilung der Güte einer Regressionsschätzung ist das Bestimmtheitsmaß. Die Begründung für dieses Maß leitet sich aus der sog. Streuungszerlegung her. Die Gesamtvarianz von y läßt sich, ausgehend von der Beziehung

y_{i}={\hat {y}}_{i}+d_{i}

zerlegen in die durch a + bx erklärte Varianz von y und die nicht erklärte Varianz:

s_{y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+{\frac {1}{n}}\sum _{i=1}^{n}(d_{i}-{\bar {d}})^{2}\;.

Einige Umformungen ergeben das Bestimmtheitsmaß

r^{2}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}}{{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}

als Anteil der erklärten Streuung an der Gesamtstreuung von y. Es ist

r^{2}={\frac {(\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}}))^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}\;,

wobei ersichlich ist, daß r² das Quadrat des Korrelationskoeffizienten von x und y darstellt. Mit dem Verschiebungssatz erhalten wir

r^{2}={\frac {(\sum _{i=1}^{n}x_{i}y_{i}-n\cdot {\bar {x}}\cdot {\bar {y}})^{2}}{(\sum _{i=1}^{n}x_{i}^{2}-n\cdot {\bar {x}}^{2})(\sum _{i=1}^{n}y_{i}^{2}-n\cdot {\bar {y}}^{2})}}.

Es gilt:

0\leq r^{2}\leq 1

Je näher r² bei 1 ist, desto größer ist der Anteil der erklärten Streuung, desto besser wird y durch x erklärt. r² = 0 bedeutet, dass x und y unkorreliert sind, und r² = 1, dass x und y eine Gerade bilden.

Die Berechnung der Varianz der Residuen von Hand mit der Formel

s^{2}={\frac {1}{n-2}}\sum _{i}d_{i}^{2}

ist aufwendig, weil zuerst die Residuen ermittelt werden müssen. Eine vereinfachte Form leitet sich aus der Beziehung

r^{2}=1-{\frac {\sum _{i=1}^{n}d_{i}^{2}}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}

her. Es ist dann nämlich

s^{2}={\frac {1}{n-2}}(1-r^{2})\cdot \sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}

Sekt-Beispiel

Da hier die arithmetischen Durchschnitte glatte Werte sind, wollen wir das Bestimmtheitsmaß mit der Formel

r^{2}={\frac {(\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}}))^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}\;,

ermitteln. Die Quadratsummen wurden oben in der Tabelle bereits ausgerechnet. Wir erhalten

r^{2}={\frac {-55^{2}}{56\cdot 60}}=0,9003\;.

Man könnte also sagen, dass etwa 90% der Information in y von x stammen, die restlichen 10% haben andere Ursachen.

Anforderungen an das Regressionsmodell

Das Regressionsmodell kann nur optimale Ergebnisse liefern, wenn bestimmte Anforderungen erfüllt sind. Diese Anforderungen lassen sich aus dem Axiomensystem des klassischen linearen Regressionsmodells herleiten:

Die Residuen sollen nur rein zufällig streuen und keinerlei Systematik mehr enthalten, d.h. die Zielvariable y soll durch x vollständig erklärt werden. Systematik in den Residuen deutet daraufhin, daß das Modell möglicherweise falsch bestimmt wurde, d.h. es liegt ein Spezifikationsfehler vor.

Als bestes Mittel zur Überprüfung dieser Modellvoraussetzungen wird das (x;y)-Streudiagramm angesehen, das schnell einen optischen Eindruck von der Verteilung der Störgröße vermittelt.

**Korrelierte Residuen**:
In den Residuen ist noch ein Schwingungskomponente, die man ev. mit dem Ansatz y = a + b₁x + b₂sin(x) einbinden könnte.

**Verschiedene Varianz der Residuen**:
Die linken Residuen schwanken schwächer als die rechten. Vermutlich sind zwei verschiedene Populationen gemischt worden.

Prognose

Ein Ziel der Regressionsanalyse ist die Prognose ŷ₀, d.h. man fragt danach, welchen Wert y annimmt, wenn ein bestimmtes x₀ vorgegeben ist:

{\hat {y}}_{0}=a+bx_{0}

Sekt-Beispiel: Wieviel Flaschen Sekt werden im Durchschnitt verkauft, wenn der Preis auf x₀ = 11 Euros festgelegt wird? Es ergibt sich der Prognosewert

{\hat {y}}_{0}=19,7321-0,9821\cdot 11=8,93

Das heißt jetzt aber nicht, dass in jedem Laden genau 8,93 Flaschen verkauft werden, was auch schwierig sein dürfte, sondern dass in einem Laden durchschnittlich 8,93 Flaschen abgesetzt werden.

Je weiter x₀ vom „Zentrum“ x der Daten entfernt ist, desto unverläßlicher werden die Prognosen - ihre Varianz wird immer größer. Deshalb sollte man sich bei einer Prognose nicht zu weit von den Daten entfernen.

Multiple Regression

Beispiel mit demografischen Daten ausgewählter Länder:

Row i	Country	popgrow	birth	mort	fertil	explife	infmort
		y	x₁	x₂	x₃	x₄	x₅
1	Austria	0,14	8,90	9,56	1,35	78,87	4,68
2	Burkina Faso	2,57	44,46	18,79	6,28	44,20	98,67
3	Burma	0,47	18,64	12,16	2,08	56,01	68,78
4	Chile	1,01	15,77	5,71	2,06	76,38	9,05
5	Costa Rica	1,52	18,99	4,32	2,33	76,63	10,26
6	Iraq	2,74	33,09	5,66	4,40	68,26	52,71
7	Norway	0,41	11,89	9,51	1,78	79,25	3,73
8	Portugal	0,41	10,90	10,37	1,46	77,35	5,13
9	Singapore	1,71	9,63	4,05	1,04	81,53	2,28
10	United Kingdom	0,29	10,88	10,19	1,66	78,27	5,22

Erklärung der Variablen:

birth	Geburtenrate (Zahl der Geburten pro 1000 Einwohner)
explife	Lebenserwartung (Mittlere Zahl der Lebensjahre von Geburt an)
fertil	Fertilität (Durchschn. Kinderzahl pro gebärfähiger Frau)
infmort	Kindersterblichkeit (Zahl der verstorbenen Kinder unter einem Jahr pro 1000 Lebendgeburten)
mort	Sterblichkeit (Zahl der Verstorbenen pro 1000 Einwohner)
popgrow	Wachstumsrate der Bevölkerung (prozentuale Änderung der Einwohnerzahl gegenüber dem Vorjahr)

Es wurden die demografischen Daten für n=10 zufällig ausgewählte Länder erhoben (Quelle: Worldfact-Book der CIA)

Es soll nun das Bevölkerungswachstum popgrow erklärt werden. Es wird zunächst als erklärende Variable die Geburtenrate birth versucht:

popgrow=a+b\cdot birth

bzw.

y=a+bx\;.

Wir erhalten die Regressionsgerade

popgrow=-0,104+0,0672\cdot birth

mit einem Bestimmtheitsmaß von 66,4%. Die Information in popgrow wird also zu 66% durch birth erklärt, die restlichen 34% entstammen anderen Einflussgrößen. Wir machen einen zweiten Versuch und verwenden die Sterblichkeit als erklärende Variable:

popgrow=a+b\cdot mort+d\;.

.

Hier ergibt sich als Regressionsgerade

popgrow=1,16-0,0032\cdot mort+d

mit einem Bestimmtheitsmaß von ca. 0%. Dieses Ergebnis ist enttäuschend und auch das vorherige war nicht gerade berauschend. Jetzt versuchen wir mal was Innovatives: Wir machen einen Regressionsansatz mit zwei unabhängigen Variablen

popgrow=b_{0}+b_{1}\cdot birth+b_{2}\cdot mort+d

bzw.

y=b_{0}+b_{1}\cdot x_{1}+b_{2}\cdot x_{2}+d

.

Gesucht ist also die geschätzte Regressionsebene

{\hat {y}}=b_{0}+b_{1}x_{1}+b_{2}x_{2}

.

Wir erhalten das Gleichungssystem

y_{1}=b_{0}+b_{1}x_{11}+b_{2}x_{12}+d_{1},

y_{2}=b_{0}+b_{1}x_{21}+b_{2}x_{22}+d_{2},

y_{3}=b_{0}+b_{1}x_{31}+b_{2}x_{32}+d_{3},

\cdots

y_{10}=b_{0}+b_{1}x_{10,1}+b_{2}x_{10,2}+d_{10}\;.

Wir wollen nun die einzelnen Daten zu Matrizen zusammenfassen. Wir erhalten die (10x3)-Datenmatrix

{\underline {X}}={\begin{pmatrix}1&x_{11}&x_{12}\\1&x_{21}&x_{22}\\\vdots &&\vdots \\1&x_{10,1}&x_{10,2}\end{pmatrix}}={\begin{pmatrix}1&8,90&9,56\\1&44,46&18,79\\1&18,64&12,16\\1&15,77&5,71\\1&18,99&4,32\\1&33,09&5,66\\1&11,89&9,51\\1&10,90&10,37\\1&9,63&4,05\\1&10,88&10,19\end{pmatrix}}

und die Vektoren

{\underline {y}}={\begin{pmatrix}0,14\\2,57\\0,47\\1,01\\1,52\\2,74\\0,41\\0,41\\1,71\\0,29\end{pmatrix}}\;,

{\underline {b}}={\begin{pmatrix}b_{0}\\b_{1}\\b_{2}\end{pmatrix}}\;

und

{\underline {d}}={\begin{pmatrix}d_{1}\\d_{2}\\\cdots \\d_{10}\end{pmatrix}}.

Mit diesen Matrizen können wir das Gleichungssystem in Matrixschreibweise darstellen als

{\underline {y}}={\underline {X}}{\underline {b}}+{\underline {d}}

wobei Vektoren und Matrizen unterstrichen sind.

Auch hier wird die Quadratsumme der Residuen minimiert, um die Regressionskoeffizienten zu erhalten. Diese berechnen sich mit der Formel

{\underline {b}}=({\underline {X}}'{\underline {X}})^{-1}{\underline {X}}'{\underline {y}}

.

Wir erhalten den Vektor der Regressionskoeffizienten

{\underline {b}}=({\underline {X}}'{\underline {X}})^{-1}{\underline {X}}'{\underline {y}}={\begin{pmatrix}0,556\\0,089\\-0,117\end{pmatrix}}\;,

also

popgrow=0,556+0,089\cdot birth-0,117\cdot mort

bzw.

{\hat {y}}=0,556+0,089x_{1}-0,117x_{2}

.

Das Bestimmtheitmaß ist hier 88,8%. Die Anpassung hat sich beträchtlich verbessert. Hier scheint das Zusammenwirken der beiden Regressoren mehr bewirkt zu haben als die „Summe der Teile“.

Die Wurzel aus dem Bestimmtheitsmaß ergibt den multiplen Korrelationskoeffizienten r = 0,942. Der multiple Korrelationskoeffizient kann nur zwischen 0 und 1 liegen, wobei 1 wieder vollständige Korrelation bedeutet.

Die Regressionskoeffizienten 0,089 und 0,117 sind die partiellen Ableitungen der Regressionsebene. Man könnte die Koeffizienten so interpretieren: Steigt bei konstanter Sterblichkeit die Geburtenrate um einen Punkt, erhöht sich das Bevölkerungswachstum um ca. 0,1 Prozent. Steigt dagegen bei konstanter Geburtenrate die Sterblichkeit um einen Punkt, sinkt das Bevölkerungswachstum um ca. einen Punkt. Eine simultane Analyse der Regressionsebene bezüglich beider Regressionskoeffizienten ist kompliziert und meistens auch nicht sinnvoll interpretierbar. Die Analyse eines Regressionskoeffizienten bei Konstanthaltung der übrigen Regressoren nennt man eine Ceteris-Paribus-Analyse.

In der Regel ist die Berechnung der Regressionskoeffizienten im multiplen linearen Regressionsmodell so aufwendig, daß Computer eingesetzt werden müssen. Spezielle statistische Datenbanksysteme wie SPSS,SAS oder Minitab ermöglichen eine umfassende Regressionsanalyse.

Die Vor- und Nachteile der Minimum-Quadrat-Methode sind dieselben wie bei der Einfachregression: Es sei x_8,2 = 100 statt 10,9. Man erhält

popgrow=1,13+0,0031\cdot birth-0,0092\cdot mort

mit einem Bestimmtheitsmaß von 0,7%.

Literatur

Peter Schönfeld: Methoden der Ökonometrie, Berlin/Frankfurt, 1969
Norman R. Draper und Harry Smith: Applied Regression Analysis, John Wiley & Sons Inc. 1998, ISBN 0471170828

↓ Zeitreihenanalyse

↑ Korrelationsanalyse

↑↑ Inhaltsverzeichnis Statistik