Zum Inhalt springen

GNU R: glm

Aus Wikibooks

glm() ist die Hauptfunktion für generalized linear models (inkl. logistische Regressionsanalyse).

Handhabung

[Bearbeiten]

logistische Regressionsanalyse

[Bearbeiten]

Für logistische Regressionsanalysen wird die glm()-Funktion um den Parameter family=binomial("logit") erweitert.

R kann auf verschiedenen Wegen eine logistische Regression durchführen. Die "gängigste" Methode sieht so aus, dass ein Datenframe vorliegt, in welchem sowohl die Werte der Prädiktoren-Variablen als auch die Kriteriumsvariable (Zielvariable) gespeichert sind. Die Zielvariable sollte als Faktor vorliegen, wobei die erste Level als "Ereignis ist nicht eingetreten", und alle darüberliegenden Faktoren als "Ereignis ist eingetreten" angesehen werden.

Daten aus Anwendungsbeispiel 3:

a <- factor(c(0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1))
b <- c(5, 3, 2, 4, 1, 6, 3, 2, 4, 3, 6, 5, 4, 3)
bsp3 <- data.frame(a,b)
colnames(bsp3) <- c("Erfolg", "Abschlussnote")
bsp3

In der Spalte "Erfolg" ist angegeben, ob ein Proband erfolgreich im Berufsleben steht. Die Spalte "Abschlussnote" gibt die Schulnote des Probanden an.

Es stellt sich die Frage, wie gut der berufliche Erfolg über die Schulnote erklärt werden kann.

Die logistische Regression wird durchgeführt mit:

glm(zielvariable ~ prädiktor, binomial) 

bzw. bei mehreren Prädiktoren per:

 glm(zielvariable ~ prädiktor1+prädiktor2+prädiktor3, binomial)

(Da "family" das zweite Argument von glm ist, brauchen wir family=binomial("logit") nicht ausschreiben, sondern können es per binomial abkürzen)

Für unser Beispiel lautet der Befehl:

glm(bsp3$Erfolg ~ bsp3$Abschlussnote, binomial) 


Mit der plot-Funktion werden Standardgrafiken zur Untersuchung ausgegeben:

plot(glm(zielvariable ~ prädiktor1+prädiktor2+prädiktor3, binomial))

siehe auch

[Bearbeiten]

lm()

[Bearbeiten]