Zum Inhalt springen

Diskussion:Statistik: Regressionsanalyse

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
Abschnitt hinzufügen
Aus Wikibooks
Letzter Kommentar: vor 1 Jahr von 80.123.172.54 in Abschnitt Interessantes Beispiel von Regression mit systematischem Fehler

Aus w:Regressionsanalyse in Wikipedia reinkopiert. Wird noch etwas geändert. --Philipendula 16:39, 7. Nov 2004 (UTC)

Ein hohes Bestimmtheitsmaß R^2 genügt nicht, da noch ein Signifikanztest für die Regressionsanalyse durchgeführt werden muss. Dies wird hier nicht erwähnt oder erklärt.

Der Zusammenhang Duenger/Ertrag ist nicht linear. Es gibt eine optimale Duengergabe, darueber und darunter nimmt der Ertrag ab. Kleine Teilbereiche sind natuerlich naeherungsweise linear. Linear waere etwa die Beziehung Strom/Spannung bei konstantem Widerstand, oder Laufzeit/Entfernung bei Echolot/Laser Entfernungsmessungen.

Bei der Multiple Regression kann es sein das da zwei variablen vertauscht wurden (mort unf fert)??? Das ist nämlich irgentwie nicht konsistent....

Multiple Regression

[Bearbeiten]

Bei einer Lebenserwartung von 18,79 Jahren, 44,46 Kinder zu gebären,

bei 9 Monaten Tragzeit ist schon erstaunlich.

Auch die Sterblichkeit pro 1000 Einwohner dürfte nach vorsichtigen Schätzungen

bei 100% liegen.

Auch die Geburtenrate hat die Einheit pro Einwohner und Jahr.

Wie kann man so etwas veröffentlichen? Da ist kein Fehler drin, das ist ein einziger Fehler!

Was wird hier auf 4 Stellen hinter dem Komma ausgerechnet?

Vielleicht sollten auch Mathematiker einmal mit Masszahl UND Einheit rechnen,

oder ist denen egal was rauskommt, Hauptsache irgendeine Zahl, auch wenn diese

nichts aussagt und falsch ist?

Da hat doch der Autor die Zahlenkollone in sein Matheprogramm eingetippst und sich

beim Abschreiben der Arithmetik soviel Gedanken über die Schwangerschaft gemacht

wie sein Computerprogramm.

Diesen Teil (den Rest hab ich mir erst gar nicht mehr angesehen) bitte löschen

und dringend persönlich überarbeiten, und nicht stumpfsinnig irgendwelche Zahlen

und Gleichungen vom Computer abschreiben!

Schnucki, schau dir doch mal die Variablendefinitionen an. --Philipendula ? 09:37, 22. Mär. 2009 (CET)Beantworten
Klar sollte man sich die ansehen. :-) Aber eine Durchschn. Kinderzahl pro gebärfähiger Frau zwischen 8,90 und 44,46 ist unwahrscheinlich. Da ist wohl das Komma verrutscht. Der Begriff "Sterblichkeit" ist unpassend. Auch ich glaube, dass von 1000 Einwohnern alle 1000 sterblich sind. LG -- Klaus 09:45, 22. Mär. 2009 (CET)Beantworten
Ups, hatte das mit birth velwechsert. Muss ich tatsächlich noch mal recherchieren. --Philipendula ? 10:30, 22. Mär. 2009 (CET)Beantworten

So, recherchiert. Ich hatte die Variablenüberschriften durcheinander gebracht. Vermutlich wollte ich die Spalten vertauschen und hatte das dann vergessen. Die Auswertungen stimmen aber. Bei Y sind noch kleine Inkonsistenzen, die ich beheben muss. --Philipendula ? 12:20, 22. Mär. 2009 (CET)Beantworten

Interessantes Beispiel von Regression mit systematischem Fehler

[Bearbeiten]

Die Daten (könnten z.B. die Anzahl der Touristen in zwei Städten sein) weisen auf eine Kombination einer linearen und einer Sinus-Funktion hin (genauso wie in einem Beispiel von dir, in diesem Fall mit Periode von einem Jahr). Die Sinus Funktion hat dabei ausgeprägte Maxima aber läuft relativ normal bei den Minima. Interessant ist, dass die Regression (z.B. mit Hilfe von R-Statistik) ein Ergebnis fürs Jahr 2013 liefert, dass außerhalb der statistischen Grenzen liegt, wenn wir das Kalenderjahr (und manche andere Intervalle), und innerhalb der statistischen Grenzen, wenn wir z.B. das Intervall September-August (oder manche andere) benutzen. So ein Unterschied mit den gleichen Daten weist auf einen systematischen Fehler hin. Eine Darstellung der Daten kann diesen Fehler aufzeigen. Wenn wir das Kalenderjahr benutzen, schließen wir zwei (genauer: 1 und 1/2) Maxima der Sinus Funktion in der Berechnung von einem Jahr (2013) ein, was ein eindeutiger systematischer Fehler ist. In beiden Fällen gibt es in 2012 im "Mean" ein Minimum, fast an der unteren statistischen Grenze (aber noch innerhalb der Grenze). Dieses Beispiel könnte benutzt werden, um aufzuzeigen, wie notwendig die kritische Haltung bei der Analyse der Daten ist.


year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec total
(x1000)
1994 934 895 889 838 861 822 822 855 864 943 948 836 10.51
1995 1010 915 847 791 847 853 808 903 861 984 1040 850 10.71
1996 928 861 811 772 833 811 805 856 825 947 969 819 10.24
1997 875 808 830 780 797 802 780 836 827 921 910 871 10.04
1998 1038 882 827 794 799 788 766 794 790 890 928 812 10.11
1999 906 818 818 790 818 807 796 834 834 889 927 845 10.08
2000 960 856 795 773 790 768 790 823 817 904 909 822 10.01
2001 909 855 806 768 800 768 773 806 805 908 1016 854 10.07
2002 864 794 794 735 746 735 724 805 792 846 915 782 9.53
2003 862 803 782 733 776 749 760 798 791 913 919 770 9.66
2004 866 797 775 712 765 743 754 807 759 865 891 886 9.62
2005 923 812 785 717 754 743 733 791 764 884 921 832 9.66
2006 895 827 754 717 727 727 717 764 752 824 840 767 9.31
2007 798 747 767 705 767 747 726 772 744 826 888 831 9.32
2008 888 795 754 703 729 698 718 744 746 807 883 792 9.26
2009 827 766 726 680 736 726 695 761 755 845 930 805 9.25
2010 825 775 750 685 695 700 690 760 741 815 870 825 9.13
2011 934 771 687 657 736 687 687 736 694 782 816 733 8.92
2012 762 718 699 650 679 689 670 738 721 765 808 731 8.63
2013 828 1021 862 721 687 673 653 707 790 983 983 727 9.64
2014 751 703 698 636 674 679 689 727 734 821 854 792 8.76
year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec total
(x1000)
1995 864 943 948 836 1010 915 847 791 847 853 808 903 10.57
1996 861 984 1040 850 928 861 811 772 833 811 805 856 10.41
1997 825 947 969 819 875 808 830 780 797 802 780 836 10.07
1998 827 921 910 871 1038 882 827 794 799 788 766 794 10.22
1999 790 890 928 812 906 818 818 790 818 807 796 834 10.01
2000 834 889 927 845 960 856 795 773 790 768 790 823 10.05
2001 817 904 909 822 909 855 806 768 800 768 773 806 9.94
2002 805 908 1016 854 864 794 794 735 746 735 724 805 9.78
2003 792 846 915 782 862 803 782 733 776 749 760 798 9.60
2004 791 913 919 770 866 797 775 712 765 743 754 807 9.61
2005 759 865 891 886 923 812 785 717 754 743 733 791 9.66
2006 764 884 921 832 895 827 754 717 727 727 717 764 9.53
2007 752 824 840 767 798 747 767 705 767 747 726 772 9.21
2008 744 826 888 831 888 795 754 703 729 698 718 744 9.32
2009 746 807 883 792 827 766 726 680 736 726 695 761 9.15
2010 755 845 930 805 825 775 750 685 695 700 690 760 9.22
2011 741 815 870 825 934 771 687 657 736 687 687 736 9.15
2012 694 782 816 733 762 718 699 650 679 689 670 738 8.63
2013 721 765 808 731 828 1021 862 721 687 673 653 707 9.18
2014 790 983 983 727 751 703 698 636 674 679 689 727 9.04
Hier auch der Code für R-Statistic für die Bearbeitung der Daten.
library(readxl)
rs1 <- read_excel("Dokumente/rs1.xlsx")
rs1f <- data.frame(rs1)
modelA<- lm(mort~ year, data= rs1)
a<- length(rs1$year)
yearValues <- seq(1, a, 1)
Apredict <- predict( modelA, list(year=yearValues))
Apredictf <- data.frame(Apredict)
ConfInSwed <- predict(modelA,interval = "confidence")
ConfInSwed <- data.frame(ConfInSwed)
ConfInSwed$year <- rs1$year
ConfInSwed$year2 <- ConfInSwed$year^2
modelUpCI<- lm(upr~ year+year2, data= ConfInSwed)
LineUpCI <- predict( modelUpCI, list(year=yearValues,year2=yearValues^2))
modelDownCI<- lm(lwr~ year+year2, data= ConfInSwed)
LineDownCI <- predict( modelDownCI, list(year=yearValues,year2=yearValues^2))
rs1f$pred <- Apredictf$Apredict
rs1f <- transform(rs1f, PercPred = 100*(mort-pred) / pred)
rs1f$downCI <- LineDownCI
rs1f$upCI <- LineUpCI
rs1f <- transform(rs1f, PercDownCI = 100*(mort-upCI) / upCI)
rs1f <- transform(rs1f, PercUpCI = 100*(mort-downCI) / downCI)
PredInSwed <- predict(modelA,interval = "prediction")
PredInSwed <- data.frame(PredInSwed)
PredInSwed$year <- rs1$year
PredInSwed$year2 <- PredInSwed$year^2
modelUpPI<- lm(upr~ year+year2, data= PredInSwed)
LineUpPI <- predict( modelUpPI, list(year=yearValues,year2=yearValues^2))
modelDownPI<- lm(lwr~ year+year2, data= PredInSwed)
LineDownPI <- predict( modelDownPI, list(year=yearValues,year2=yearValues^2))
rs1f$downPI <- LineDownPI
rs1f$upPI <- LineUpPI
rs1f <- transform(rs1f, PercDownPI = 100*(mort-upPI) / upPI)
rs1f <- transform(rs1f, PercUpPI = 100*(mort-downPI) / downPI)
rs1f <- transform(rs1f, DifPIMCI = (upPI-downPI) - (upCI-downCI))
yearList<-seq(2015-a, 2014, 1)
rs1$year<-yearList
rs1f$year<- yearList
plot(rs1$year,rs1$mort,xlab="Year",ylab="Mortality")
lines <- lines(yearList, Apredict, col=2, lwd=2)
lines <- lines(yearList, LineUpCI, col=2, lwd=3, lty=2)
lines <- lines(yearList, LineDownCI, col=2, lwd=3, lty=2)
lines <- lines(yearList, LineUpPI, col=2, lwd=2, lty=3)
lines <- lines(yearList, LineDownPI, col=2, lwd=2, lty=3)
write.table(rs1f, col.names = NA)
summary(modelA)

80.123.172.54 14:23, 13. Jan. 2025 (CET)Beantworten