Diskussion:Statistik: Regressionsanalyse

Aus w:Regressionsanalyse in Wikipedia reinkopiert. Wird noch etwas geändert. --Philipendula 16:39, 7. Nov 2004 (UTC)

Ein hohes Bestimmtheitsmaß R^2 genügt nicht, da noch ein Signifikanztest für die Regressionsanalyse durchgeführt werden muss. Dies wird hier nicht erwähnt oder erklärt.

Der Zusammenhang Duenger/Ertrag ist nicht linear. Es gibt eine optimale Duengergabe, darueber und darunter nimmt der Ertrag ab. Kleine Teilbereiche sind natuerlich naeherungsweise linear. Linear waere etwa die Beziehung Strom/Spannung bei konstantem Widerstand, oder Laufzeit/Entfernung bei Echolot/Laser Entfernungsmessungen.

Bei der Multiple Regression kann es sein das da zwei variablen vertauscht wurden (mort unf fert)??? Das ist nämlich irgentwie nicht konsistent....

Multiple Regression

Letzter Kommentar: vor 15 Jahren4 Kommentare2 Personen sind an der Diskussion beteiligt

Bei einer Lebenserwartung von 18,79 Jahren, 44,46 Kinder zu gebären,

bei 9 Monaten Tragzeit ist schon erstaunlich.

Auch die Sterblichkeit pro 1000 Einwohner dürfte nach vorsichtigen Schätzungen

bei 100% liegen.

Auch die Geburtenrate hat die Einheit pro Einwohner und Jahr.

Wie kann man so etwas veröffentlichen? Da ist kein Fehler drin, das ist ein einziger Fehler!

Was wird hier auf 4 Stellen hinter dem Komma ausgerechnet?

Vielleicht sollten auch Mathematiker einmal mit Masszahl UND Einheit rechnen,

oder ist denen egal was rauskommt, Hauptsache irgendeine Zahl, auch wenn diese

nichts aussagt und falsch ist?

Da hat doch der Autor die Zahlenkollone in sein Matheprogramm eingetippst und sich

beim Abschreiben der Arithmetik soviel Gedanken über die Schwangerschaft gemacht

wie sein Computerprogramm.

Diesen Teil (den Rest hab ich mir erst gar nicht mehr angesehen) bitte löschen

und dringend persönlich überarbeiten, und nicht stumpfsinnig irgendwelche Zahlen

und Gleichungen vom Computer abschreiben!

Schnucki, schau dir doch mal die Variablendefinitionen an. --Philipendula ? 09:37, 22. Mär. 2009 (CET)Beantworten

Klar sollte man sich die ansehen. :-) Aber eine Durchschn. Kinderzahl pro gebärfähiger Frau zwischen 8,90 und 44,46 ist unwahrscheinlich. Da ist wohl das Komma verrutscht. Der Begriff "Sterblichkeit" ist unpassend. Auch ich glaube, dass von 1000 Einwohnern alle 1000 sterblich sind. LG -- Klaus 09:45, 22. Mär. 2009 (CET)Beantworten

Ups, hatte das mit birth velwechsert. Muss ich tatsächlich noch mal recherchieren. --Philipendula ? 10:30, 22. Mär. 2009 (CET)Beantworten

So, recherchiert. Ich hatte die Variablenüberschriften durcheinander gebracht. Vermutlich wollte ich die Spalten vertauschen und hatte das dann vergessen. Die Auswertungen stimmen aber. Bei Y sind noch kleine Inkonsistenzen, die ich beheben muss. --Philipendula ? 12:20, 22. Mär. 2009 (CET)Beantworten

Interessantes Beispiel von Regression mit systematischem Fehler

Letzter Kommentar: vor 2 Monaten2 Kommentare1 Person ist an der Diskussion beteiligt

Die Daten (könnten z.B. Geburtsdaten einer Tierpopulation sein) weisen auf eine Kombination einer linearen und einer Sinus-Funktion hin (genauso wie in einem Beispiel von dir, in diesem Fall mit Periode von einem Jahr). Die Sinus Funktion hat dabei ausgeprägte Maxima aber läuft relativ normal bei den Minima. Interessant ist, dass die Regression (z.B. mit Hilfe von R-Statistik) ein Ergebnis fürs Jahr 2013 liefert, dass außerhalb der statistischen Grenzen liegt, wenn wir das Kalenderjahr (und manche andere Intervalle), und innerhalb der statistischen Grenzen, wenn wir z.B. das Intervall September-August (oder manche andere) benutzen. So ein Unterschied mit den gleichen Daten weist auf einen systematischen Fehler hin. Eine Darstellung der Daten kann diesen Fehler aufzeigen. Wenn wir das Kalenderjahr benutzen, schließen wir zwei (genauer: 1 und 1/2) Maxima der Sinus Funktion in der Berechnung von einem Jahr (2013) ein, was ein eindeutiger systematischer Fehler ist. In beiden Fällen gibt es in 2012 im "Mean" ein Minimum, fast an der unteren statistischen Grenze (aber noch innerhalb der Grenze). Dieses Beispiel könnte benutzt werden, um aufzuzeigen, wie notwendig die kritische Haltung bei der Analyse der Daten ist.

		Jan	Feb	Mar	Apr	May	Jun	Jul	Aug	Sep	Oct	Nov	Dec	Total	Population	Mean
1994	1	165	149	166	159	158	149	153	146	146	152	154	168	1.865	177.700	10,50
1995	2	169	149	180	163	151	141	151	152	144	161	154	176	1.891	178.200	10,61
1996	3	186	152	166	154	145	138	149	145	144	153	148	170	1.850	178.800	10,35
1997	4	174	147	157	145	149	140	143	144	140	150	149	166	1.804	179.500	10,05
1998	5	164	157	187	159	149	143	144	142	138	143	143	161	1.830	180.200	10,16
1999	6	168	147	164	148	148	143	148	146	144	151	152	162	1.821	181.000	10,06
2000	7	169	154	175	156	145	141	144	140	144	150	150	166	1.834	182.300	10,06
2001	8	167	151	167	157	148	141	147	141	142	148	149	168	1.826	183.700	9,94
2002	9	188	158	160	147	147	136	138	136	134	149	148	158	1.799	185.100	9,72
2003	10	171	146	161	150	146	137	145	140	142	149	149	172	1.808	186.800	9,68
2004	11	173	145	163	150	146	134	144	140	142	152	144	164	1.797	188.300	9,54
2005	12	169	168	175	154	149	136	143	141	139	150	146	169	1.839	189.700	9,69
2006	13	176	159	171	158	144	137	139	139	137	146	145	159	1.810	191.100	9,47
2007	14	162	148	154	144	148	136	148	144	140	149	145	161	1.779	192.900	9,22
2008	15	173	162	173	155	147	137	142	136	140	145	147	159	1.816	194.900	9,32
2009	16	174	156	163	151	143	134	145	143	137	150	151	169	1.816	197.000	9,22
2010	17	186	161	165	155	150	137	139	140	138	152	150	165	1.838	199.900	9,19
2011	18	176	167	189	156	139	133	149	139	139	149	142	160	1.838	202.400	9,08
2012	19	167	150	156	147	143	133	139	141	137	151	149	158	1.771	204.600	8,66
2013	20	167	151	171	211	178	149	142	139	135	146	164	204	1.957	206.600	9,47
2014	21	204	151	156	146	145	132	140	141	143	151	153	171	1.833	207.600	8,83

		Sep	Oct	Nov	Dec	Jan	Feb	Mar	Apr	May	Jun	Jul	Aug	Total	Population	Mean
1995	1	146	152	154	168	169	149	180	163	151	141	151	152	1.876	178.200	10,53
1996	2	144	161	154	176	186	152	166	154	145	138	149	145	1.870	178.800	10,46
1997	3	144	153	148	170	174	147	157	145	149	140	143	144	1.814	179.500	10,11
1998	4	140	150	149	166	164	157	187	159	149	143	144	142	1.850	180.200	10,27
1999	5	138	143	143	161	168	147	164	148	148	143	148	146	1.797	181.000	9,93
2000	6	144	151	152	162	169	154	175	156	145	141	144	140	1.833	182.300	10,05
2001	7	144	150	150	166	167	151	167	157	148	141	147	141	1.829	183.700	9,96
2002	8	142	148	149	168	188	158	160	147	147	136	138	136	1.817	185.100	9,82
2003	9	134	149	148	158	171	146	161	150	146	137	145	140	1.785	186.800	9,56
2004	10	142	149	149	172	173	145	163	150	146	134	144	140	1.807	188.300	9,60
2005	11	142	152	144	164	169	168	175	154	149	136	143	141	1.837	189.700	9,68
2006	12	139	150	146	169	176	159	171	158	144	137	139	139	1.827	191.100	9,56
2007	13	137	146	145	159	162	148	154	144	148	136	148	144	1.771	192.900	9,18
2008	14	140	149	145	161	173	162	173	155	147	137	142	136	1.820	194.900	9,34
2009	15	140	145	147	159	174	156	163	151	143	134	145	143	1.800	197.000	9,14
2010	16	137	150	151	169	186	161	165	155	150	137	139	140	1.840	199.900	9,20
2011	17	138	152	150	165	176	167	189	156	139	133	149	139	1.853	202.400	9,16
2012	18	139	149	142	160	167	150	156	147	143	133	139	141	1.766	204.600	8,63
2013	19	137	151	149	158	167	151	171	211	178	149	142	139	1.903	206.600	9,21
2014	20	135	146	164	204	204	151	156	146	145	132	140	141	1.864	207.600	8,98

80.123.172.54 15:54, 18. Okt. 2024 (CEST)Beantworten

Hier auch der Code für R-Statistic für die Bearbeitung der Daten.


library(readxl)
rs1 <- read_excel("Dokumente/rs1.xlsx")
rs1f <- data.frame(rs1)
modelA<- lm(mort~ year, data= rs1)
a<- length(rs1$year)
yearValues <- seq(1, a, 1)
Apredict <- predict( modelA, list(year=yearValues))
Apredictf <- data.frame(Apredict)
ConfInSwed <- predict(modelA,interval = "confidence")
ConfInSwed <- data.frame(ConfInSwed)
ConfInSwed$year <- rs1$year
ConfInSwed$year2 <- ConfInSwed$year^2
modelUpCI<- lm(upr~ year+year2, data= ConfInSwed)
LineUpCI <- predict( modelUpCI, list(year=yearValues,year2=yearValues^2))
modelDownCI<- lm(lwr~ year+year2, data= ConfInSwed)
LineDownCI <- predict( modelDownCI, list(year=yearValues,year2=yearValues^2))
rs1f$pred <- Apredictf$Apredict
rs1f <- transform(rs1f, PercPred = 100*(mort-pred) / pred)
rs1f$downCI <- LineDownCI
rs1f$upCI <- LineUpCI
rs1f <- transform(rs1f, PercDownCI = 100*(mort-upCI) / upCI)
rs1f <- transform(rs1f, PercUpCI = 100*(mort-downCI) / downCI)
PredInSwed <- predict(modelA,interval = "prediction")
PredInSwed <- data.frame(PredInSwed)
PredInSwed$year <- rs1$year
PredInSwed$year2 <- PredInSwed$year^2
modelUpPI<- lm(upr~ year+year2, data= PredInSwed)
LineUpPI <- predict( modelUpPI, list(year=yearValues,year2=yearValues^2))
modelDownPI<- lm(lwr~ year+year2, data= PredInSwed)
LineDownPI <- predict( modelDownPI, list(year=yearValues,year2=yearValues^2))
rs1f$downPI <- LineDownPI
rs1f$upPI <- LineUpPI
rs1f <- transform(rs1f, PercDownPI = 100*(mort-upPI) / upPI)
rs1f <- transform(rs1f, PercUpPI = 100*(mort-downPI) / downPI)
rs1f <- transform(rs1f, DifPIMCI = (upPI-downPI) - (upCI-downCI))
yearList<-seq(2021-a, 2020, 1)
rs1$year<-yearList
rs1f$year<- yearList
plot(rs1$year,rs1$mort,xlab="Year",ylab="Mortality")
lines <- lines(yearList, Apredict, col=2, lwd=2)
lines <- lines(yearList, LineUpCI, col=2, lwd=3, lty=2)
lines <- lines(yearList, LineDownCI, col=2, lwd=3, lty=2)
lines <- lines(yearList, LineUpPI, col=2, lwd=2, lty=3)
lines <- lines(yearList, LineDownPI, col=2, lwd=2, lty=3)
write.table(rs1f, col.names = NA)
summary(modelA)

80.123.172.54 18:55, 25. Okt. 2024 (CEST)Beantworten