Zum Inhalt springen

Diskussion:Statistik: Regressionsanalyse

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
Abschnitt hinzufügen
Aus Wikibooks
Letzter Kommentar: vor 2 Monaten von 80.123.172.54 in Abschnitt Interessantes Beispiel von Regression mit systematischem Fehler

Aus w:Regressionsanalyse in Wikipedia reinkopiert. Wird noch etwas geändert. --Philipendula 16:39, 7. Nov 2004 (UTC)

Ein hohes Bestimmtheitsmaß R^2 genügt nicht, da noch ein Signifikanztest für die Regressionsanalyse durchgeführt werden muss. Dies wird hier nicht erwähnt oder erklärt.

Der Zusammenhang Duenger/Ertrag ist nicht linear. Es gibt eine optimale Duengergabe, darueber und darunter nimmt der Ertrag ab. Kleine Teilbereiche sind natuerlich naeherungsweise linear. Linear waere etwa die Beziehung Strom/Spannung bei konstantem Widerstand, oder Laufzeit/Entfernung bei Echolot/Laser Entfernungsmessungen.

Bei der Multiple Regression kann es sein das da zwei variablen vertauscht wurden (mort unf fert)??? Das ist nämlich irgentwie nicht konsistent....

Multiple Regression

[Bearbeiten]

Bei einer Lebenserwartung von 18,79 Jahren, 44,46 Kinder zu gebären,

bei 9 Monaten Tragzeit ist schon erstaunlich.

Auch die Sterblichkeit pro 1000 Einwohner dürfte nach vorsichtigen Schätzungen

bei 100% liegen.

Auch die Geburtenrate hat die Einheit pro Einwohner und Jahr.

Wie kann man so etwas veröffentlichen? Da ist kein Fehler drin, das ist ein einziger Fehler!

Was wird hier auf 4 Stellen hinter dem Komma ausgerechnet?

Vielleicht sollten auch Mathematiker einmal mit Masszahl UND Einheit rechnen,

oder ist denen egal was rauskommt, Hauptsache irgendeine Zahl, auch wenn diese

nichts aussagt und falsch ist?

Da hat doch der Autor die Zahlenkollone in sein Matheprogramm eingetippst und sich

beim Abschreiben der Arithmetik soviel Gedanken über die Schwangerschaft gemacht

wie sein Computerprogramm.

Diesen Teil (den Rest hab ich mir erst gar nicht mehr angesehen) bitte löschen

und dringend persönlich überarbeiten, und nicht stumpfsinnig irgendwelche Zahlen

und Gleichungen vom Computer abschreiben!

Schnucki, schau dir doch mal die Variablendefinitionen an. --Philipendula ? 09:37, 22. Mär. 2009 (CET)Beantworten
Klar sollte man sich die ansehen. :-) Aber eine Durchschn. Kinderzahl pro gebärfähiger Frau zwischen 8,90 und 44,46 ist unwahrscheinlich. Da ist wohl das Komma verrutscht. Der Begriff "Sterblichkeit" ist unpassend. Auch ich glaube, dass von 1000 Einwohnern alle 1000 sterblich sind. LG -- Klaus 09:45, 22. Mär. 2009 (CET)Beantworten
Ups, hatte das mit birth velwechsert. Muss ich tatsächlich noch mal recherchieren. --Philipendula ? 10:30, 22. Mär. 2009 (CET)Beantworten

So, recherchiert. Ich hatte die Variablenüberschriften durcheinander gebracht. Vermutlich wollte ich die Spalten vertauschen und hatte das dann vergessen. Die Auswertungen stimmen aber. Bei Y sind noch kleine Inkonsistenzen, die ich beheben muss. --Philipendula ? 12:20, 22. Mär. 2009 (CET)Beantworten

Interessantes Beispiel von Regression mit systematischem Fehler

[Bearbeiten]

Die Daten (könnten z.B. Geburtsdaten einer Tierpopulation sein) weisen auf eine Kombination einer linearen und einer Sinus-Funktion hin (genauso wie in einem Beispiel von dir, in diesem Fall mit Periode von einem Jahr). Die Sinus Funktion hat dabei ausgeprägte Maxima aber läuft relativ normal bei den Minima. Interessant ist, dass die Regression (z.B. mit Hilfe von R-Statistik) ein Ergebnis fürs Jahr 2013 liefert, dass außerhalb der statistischen Grenzen liegt, wenn wir das Kalenderjahr (und manche andere Intervalle), und innerhalb der statistischen Grenzen, wenn wir z.B. das Intervall September-August (oder manche andere) benutzen. So ein Unterschied mit den gleichen Daten weist auf einen systematischen Fehler hin. Eine Darstellung der Daten kann diesen Fehler aufzeigen. Wenn wir das Kalenderjahr benutzen, schließen wir zwei (genauer: 1 und 1/2) Maxima der Sinus Funktion in der Berechnung von einem Jahr (2013) ein, was ein eindeutiger systematischer Fehler ist. In beiden Fällen gibt es in 2012 im "Mean" ein Minimum, fast an der unteren statistischen Grenze (aber noch innerhalb der Grenze). Dieses Beispiel könnte benutzt werden, um aufzuzeigen, wie notwendig die kritische Haltung bei der Analyse der Daten ist.

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Total Population Mean
1994 1 165 149 166 159 158 149 153 146 146 152 154 168 1.865 177.700 10,50
1995 2 169 149 180 163 151 141 151 152 144 161 154 176 1.891 178.200 10,61
1996 3 186 152 166 154 145 138 149 145 144 153 148 170 1.850 178.800 10,35
1997 4 174 147 157 145 149 140 143 144 140 150 149 166 1.804 179.500 10,05
1998 5 164 157 187 159 149 143 144 142 138 143 143 161 1.830 180.200 10,16
1999 6 168 147 164 148 148 143 148 146 144 151 152 162 1.821 181.000 10,06
2000 7 169 154 175 156 145 141 144 140 144 150 150 166 1.834 182.300 10,06
2001 8 167 151 167 157 148 141 147 141 142 148 149 168 1.826 183.700 9,94
2002 9 188 158 160 147 147 136 138 136 134 149 148 158 1.799 185.100 9,72
2003 10 171 146 161 150 146 137 145 140 142 149 149 172 1.808 186.800 9,68
2004 11 173 145 163 150 146 134 144 140 142 152 144 164 1.797 188.300 9,54
2005 12 169 168 175 154 149 136 143 141 139 150 146 169 1.839 189.700 9,69
2006 13 176 159 171 158 144 137 139 139 137 146 145 159 1.810 191.100 9,47
2007 14 162 148 154 144 148 136 148 144 140 149 145 161 1.779 192.900 9,22
2008 15 173 162 173 155 147 137 142 136 140 145 147 159 1.816 194.900 9,32
2009 16 174 156 163 151 143 134 145 143 137 150 151 169 1.816 197.000 9,22
2010 17 186 161 165 155 150 137 139 140 138 152 150 165 1.838 199.900 9,19
2011 18 176 167 189 156 139 133 149 139 139 149 142 160 1.838 202.400 9,08
2012 19 167 150 156 147 143 133 139 141 137 151 149 158 1.771 204.600 8,66
2013 20 167 151 171 211 178 149 142 139 135 146 164 204 1.957 206.600 9,47
2014 21 204 151 156 146 145 132 140 141 143 151 153 171 1.833 207.600 8,83
Sep Oct Nov Dec Jan Feb Mar Apr May Jun Jul Aug Total Population Mean
1995 1 146 152 154 168 169 149 180 163 151 141 151 152 1.876 178.200 10,53
1996 2 144 161 154 176 186 152 166 154 145 138 149 145 1.870 178.800 10,46
1997 3 144 153 148 170 174 147 157 145 149 140 143 144 1.814 179.500 10,11
1998 4 140 150 149 166 164 157 187 159 149 143 144 142 1.850 180.200 10,27
1999 5 138 143 143 161 168 147 164 148 148 143 148 146 1.797 181.000 9,93
2000 6 144 151 152 162 169 154 175 156 145 141 144 140 1.833 182.300 10,05
2001 7 144 150 150 166 167 151 167 157 148 141 147 141 1.829 183.700 9,96
2002 8 142 148 149 168 188 158 160 147 147 136 138 136 1.817 185.100 9,82
2003 9 134 149 148 158 171 146 161 150 146 137 145 140 1.785 186.800 9,56
2004 10 142 149 149 172 173 145 163 150 146 134 144 140 1.807 188.300 9,60
2005 11 142 152 144 164 169 168 175 154 149 136 143 141 1.837 189.700 9,68
2006 12 139 150 146 169 176 159 171 158 144 137 139 139 1.827 191.100 9,56
2007 13 137 146 145 159 162 148 154 144 148 136 148 144 1.771 192.900 9,18
2008 14 140 149 145 161 173 162 173 155 147 137 142 136 1.820 194.900 9,34
2009 15 140 145 147 159 174 156 163 151 143 134 145 143 1.800 197.000 9,14
2010 16 137 150 151 169 186 161 165 155 150 137 139 140 1.840 199.900 9,20
2011 17 138 152 150 165 176 167 189 156 139 133 149 139 1.853 202.400 9,16
2012 18 139 149 142 160 167 150 156 147 143 133 139 141 1.766 204.600 8,63
2013 19 137 151 149 158 167 151 171 211 178 149 142 139 1.903 206.600 9,21
2014 20 135 146 164 204 204 151 156 146 145 132 140 141 1.864 207.600 8,98

80.123.172.54 15:54, 18. Okt. 2024 (CEST)Beantworten

Hier auch der Code für R-Statistic für die Bearbeitung der Daten.
library(readxl)
rs1 <- read_excel("Dokumente/rs1.xlsx")
rs1f <- data.frame(rs1)
modelA<- lm(mort~ year, data= rs1)
a<- length(rs1$year)
yearValues <- seq(1, a, 1)
Apredict <- predict( modelA, list(year=yearValues))
Apredictf <- data.frame(Apredict)
ConfInSwed <- predict(modelA,interval = "confidence")
ConfInSwed <- data.frame(ConfInSwed)
ConfInSwed$year <- rs1$year
ConfInSwed$year2 <- ConfInSwed$year^2
modelUpCI<- lm(upr~ year+year2, data= ConfInSwed)
LineUpCI <- predict( modelUpCI, list(year=yearValues,year2=yearValues^2))
modelDownCI<- lm(lwr~ year+year2, data= ConfInSwed)
LineDownCI <- predict( modelDownCI, list(year=yearValues,year2=yearValues^2))
rs1f$pred <- Apredictf$Apredict
rs1f <- transform(rs1f, PercPred = 100*(mort-pred) / pred)
rs1f$downCI <- LineDownCI
rs1f$upCI <- LineUpCI
rs1f <- transform(rs1f, PercDownCI = 100*(mort-upCI) / upCI)
rs1f <- transform(rs1f, PercUpCI = 100*(mort-downCI) / downCI)
PredInSwed <- predict(modelA,interval = "prediction")
PredInSwed <- data.frame(PredInSwed)
PredInSwed$year <- rs1$year
PredInSwed$year2 <- PredInSwed$year^2
modelUpPI<- lm(upr~ year+year2, data= PredInSwed)
LineUpPI <- predict( modelUpPI, list(year=yearValues,year2=yearValues^2))
modelDownPI<- lm(lwr~ year+year2, data= PredInSwed)
LineDownPI <- predict( modelDownPI, list(year=yearValues,year2=yearValues^2))
rs1f$downPI <- LineDownPI
rs1f$upPI <- LineUpPI
rs1f <- transform(rs1f, PercDownPI = 100*(mort-upPI) / upPI)
rs1f <- transform(rs1f, PercUpPI = 100*(mort-downPI) / downPI)
rs1f <- transform(rs1f, DifPIMCI = (upPI-downPI) - (upCI-downCI))
yearList<-seq(2021-a, 2020, 1)
rs1$year<-yearList
rs1f$year<- yearList
plot(rs1$year,rs1$mort,xlab="Year",ylab="Mortality")
lines <- lines(yearList, Apredict, col=2, lwd=2)
lines <- lines(yearList, LineUpCI, col=2, lwd=3, lty=2)
lines <- lines(yearList, LineDownCI, col=2, lwd=3, lty=2)
lines <- lines(yearList, LineUpPI, col=2, lwd=2, lty=3)
lines <- lines(yearList, LineDownPI, col=2, lwd=2, lty=3)
write.table(rs1f, col.names = NA)
summary(modelA)
80.123.172.54 18:55, 25. Okt. 2024 (CEST)Beantworten