Statistik: Glättungsverfahren

Aus Wikibooks
Wechseln zu: Navigation, Suche

Schätzung der glatten Komponente mit gleitenden Durchschnitten

Lässt sich die Trendkomponente des Zeitreihenmodells offensichtlich durch keine funktionale lineare oder nichtlineare Beziehung darstellen, kann man eine glatte Komponente mit Hilfe gleitender Durchschnitte bestimmen.

Gleitende Durchschnitte ungeradzahliger Ordnung

Beispiel Hotelaufenthalte (G. D. 3. O)

In einem Kurhotel werden Ende April, Ende August und Ende Dezember die Zahl der Hotelaufenthalte festgehalten. Es wurde mit Ende Dezember begonnen.

Stichtag

t

Aufenthalte yt

Dez 89

1

408

Apr 90

2

372

Aug 90

3

480

Dez 90

4

444

Apr 91

5

447

Aug 91

6

492

Dez 91

7

429

Apr 92

8

411

Aug 92

9

486

Dez 92

10

525

Apr 93

11

495

Zur Ermittlung des Trends wurden gleitende Durchschnitte 3. Ordnung gebildet:

\overline y_2 = \frac {1}{3} \cdot (408+372+480)=420
\overline y_3 = \frac {1}{3} \cdot (372+480+444)=432
\vdots
\overline y_9 = \frac {1}{3} \cdot (411+486+525)=474
\overline y_{10} = \frac {1}{3} \cdot (486+525+495)=502
Gleitende Durchschnitte 3. Ordnung für die Zahl der Hotelaufenthalte

Stichtag

t

Aufenthalte yt

yt

Dez 89

1

408

Apr 90

2

372

420

Aug 90

3

480

432

Dez 90

4

444

457

Apr 91

5

447

461

Aug 91

6

492

456

Dez 91

7

429

444

Apr 92

8

411

442

Aug 92

9

486

474

Dez 92

10

525

502

Apr 93

11

495

Der Index t der Glättung yt entspricht immer dem Beobachtungswert in der Mitte der beteiligten Zeitreihenwerte.

Man sieht, dass die gleitenden Durchschnitte die starken Schwankungen glätten und man den Trend, oder besser die glatte Komponente, besser erkennt.

Die Zahl der beteiligten Beobachtungen gibt die Ordnung des Durchschnitts an. Man berechnet einen gleitenden Durchschnitt 3. Ordnung folgendermaßen:

\overline y_2 = \frac {y_1 + y_2 + y_3}{3}
\overline y_3 = \frac {y_2 + y_3 + y_4}{3}
\vdots
\overline y_t = \frac {y_{t-1} + y_t + y_{t+1}}{3}
\vdots
\overline y_{n-1} = \frac {y_{n-2} + y_{n-1} + y_{n}}{3}


Entsprechend ergeben sich gleitende Durchschnitte 5. Ordnung als

\overline y_3 = \frac {y_1 + y_2 + y_3+ y_4+ y_5}{5}
\overline y_4 = \frac {y_2 + y_3+ y_4+ y_5+y_6 }{5}
\vdots
\overline y_t = \frac {y_{t-2} + y_{t-1}+ y_t + y_{t+1}+y_{t+2} }{5}
\vdots

usw.

Beispiel Hotelaufenthalte (G. D. 5. O)

Wir berechnen die gleitenden Durchschnitte 5. Ordnung als

Gleitende Durchschnitte 5. Ordnung für die Zahl der Hotelaufenthalte
\overline y_3 = \frac {408 + 372 + 480 + 444 + 447 }{5}
\overline y_4 = \frac {372 + 480 + 444 + 447 + 492}{5}

usw., also

Stichtag

t

Aufenthalte yt

yt

Dez 89

1

408

Apr 90

2

372

Aug 90

3

480

430,2

Dez 90

4

444

447

Apr 91

5

447

458,4

Aug 91

6

492

444,6

Dez 91

7

429

453

Apr 92

8

411

468,6

Aug 92

9

486

469,2

Dez 92

10

525

Apr 93

11

495

Zur Prognose über den Beobachtungszeitraum hinaus sind gleitende Durchschnitte nicht so recht geeignet, da die Randwerte der Zeitreihe nicht geschätzt werden. Allerdings gibt es Verfahren, mit denen man diese Werte durch eine Gewichtung der benachbarten Werte ausfüllen kann.

Gleitende Durchschnitte geradzahliger Ordnung

Die Rechtfertigung für gleitende Durchschnitte als Schätzung für die glatte Komponente begründet sich darin, daß sich saisonale Schwankungen kompensieren, d.h. daß sich positive und negative Abweichungen der Saisonkomponente vom Trend aufheben. Das ist allerdings nur dann gegeben, wenn die Breite, also die Ordnung des gleitenden Durchschnitts genau einen Zyklus umfaßt und wenn alle Zyklen die gleiche Länge aufweisen. Sonst können gleitende Durchschnitte verzerrte Schätzungen liefern.

Die Breite saisonaler Schwankungen ist allerdings meist geradzahlig, z.B. Quartale, Monate usw. Es entsteht hier das Problem, daß bei der Durchschnittsbildung ein Schätzwert yt+0,5 zwischen zwei Beobachtungswerte yt und yt+1 zu liegen kommt, was meist unerwünscht ist. Man behilft sich hier so, daß man den Durchschnitt auf der Zeitachse um eine halbe Zeiteinheit nach rechts verschiebt. Die beiden Randwerte, die nur teilweise erfaßt werden, gehen mit einem Gewicht von 0,5 in den Durchschnitt ein,

z.B. statt

\overline y_{3,5} = \frac {y_2 + y_3 + y_4+ y_5}{4}

berechnet man

\overline y_4 = \frac {\frac {y_2}{2} + y_3 + y_4+ y_5+ \frac {y_6}{2}}{4}


Beispiel

Es liegen 12 Quartalswerte vor und es sollen gleitende Durchschnitte 4. Ordnung ermittelt werden.

t yt gleitender Durchschnitt 4. Ordnung
1 12
2 8
3 12 12
4 14 13
5 16 14,125
6 12 15,625
7 17 17,5
8 21 19
9 24 20,5
10 16 21,5
11 25
12 21

Z.B.

\overline y_3 = \frac {\frac {12}{2} + 8 + 12+ 14+ \frac {16}{2}}{4} = 12
\overline y_4 = \frac {\frac {8}{2} + 12+ 14+ 16 + \frac {12}{2}}{4} = 13 .


Exponentielle Glättung

Lässt eine Zeitreihe keinerlei systematisches Muster wie linearen Anstieg oder Ähnliches erkennen, kann man versuchen, mit der exponentiellen Glättung eine glatte Komponente nachzubilden. Insbesondere kann man damit eine Prognose für den Zeitpunkt T + 1 erhalten.

Das Verfahren wird beispielsweise in der Lagerhaltung verwendet, wenn es etwa darum geht, den Bedarf eines zu bestellenden Artikels im kommenden Jahr zu ermitteln. So hat etwa die Schweizer Armee mit der exponentiellen Glättung gute Erfolge bei der Ermittlung der benötigten Gewehre im folgenden Jahr gemacht.

Man geht von dem Ansatz aus, dass der gegenwärtige Zeitreihenwert immer auch von den vergangenen Werten beeinflusst wird, wobei sich der Einfluss abschwächt, je weiter der Wert in der Vergangenheit liegt.

Formales Modell

Gegeben ist eine Zeitreihe mit den Beobachtungen y1, y2, ..., yt, ... zu den Zeitpunkten t. Im Zeitpunkt t wird für yt ein geglätteter Schätzwert y*t errechnet, der sich als gewichteter Durchschnitt ergibt aus dem aktuellen Zeitreihenwert yt und dem Schätzwert der Vorperiode y*t-1. Die Gewichtung wird durch den Glättungsfaktor α bestimmt, wobei 0 ≤ α ≤ 1 sein muss. Man erhält

y^*_t = \alpha \cdot y_t + (1-\alpha) \cdot y^*_{t-1} \;.

Die Zeitreihe baut sich so rekursiv auf. Theoretisch ist die laufende Zeitreihe beim Zeitpunkt t bereits unendlich lang. Für die praktische Ermittlung des geglätteten Wertes wird man allerdings einen Startwert y*0 vorgeben und von da an die geglättete Zeitreihe ermitteln.

Baut man nun, beginnend bei y*0, die geglättete Zeitreihe auf,

y^*_1 = \alpha y_1 + (1-\alpha )y^*_0\;,
y^*_2 = \alpha y_2 + (1-\alpha )y^*_1\;,
y^*_3 = \alpha y_3 + (1-\alpha )y^*_2\;,
...

erhält man, wenn man die Rekursivität auflöst,

 y^*_t = \alpha y_t + \alpha (1- \alpha ) y_{t-1} + \alpha (1- \alpha )^2 y_ {t-2} + ... + \alpha (1- \alpha )^{t-1} y_1 + (1- \alpha )^t y_0 \;.

Man sieht, wie wegen α < 1 die Einflüsse der Vergangenheit immer mehr verschwinden.

Der Schätzwert y*t liefert den Prognosewert für den Zeitpunkt t+1. Liegt dann im Zeitpunkt t + 1 eine neue Beobachtung vor, kann die Prognose für t + 2 ermittelt werden usw.

Für die Wahl des Glättungsfaktors wird häufig 0,2 bis 0,3 empfohlen. Man kann aber auch mit Hilfe der Regressionsanalyse den Glättungsfaktor schätzen.


Einfaches Zahlenbeispiel

Es sind die Zeitreihenwerte y1. ..., y10 gegeben, wie unten in der Tabelle aufgeführt. Diese Werte sollen exponentiell geglättet werden. Es wurde ein Glättungskoeffizient von α = 0,3 gewählt und man benötigt einen Anfangswert, der hier y0* = 19 betragen soll. Wir beginnen

y_1^* = 0{,}3 \cdot 20 + 0{,}7 \cdot 19 = 6 + 13{,}3 = 19{,}3
y_2^* = 0{,}3 \cdot 18 + 0{,}7 \cdot 19{,}3 = 18{,}91

usw. In der Tabelle sind die Glättungen für ausgewählte Werte von α aufgeführt.

Zeitreihe mit exponentiell geglätteten Werten

t

yt

yt*

yt*

yt*

α = 0,3

α = 0,1

α = 0,6

0

-

19   

19   

19   

1

20

19,3 

19,1 

19,6 

2

18

18,91

18,99

18,64

3

21

19,54

19,19

20,06

4

22

20,28

19,47

21,22

5

19

19,89

19,42

19,89

6

21

20,23

19,58

20,56

7

18

19,56

19,42

19,02

8

20

19,69

19,48

19,61

9

21

20,08

19,63

20,44

10

17

19,16

19,37

18,38

Die Graphik zeigt die Glättung für α = 0,1, α = 0,3 und α = 0,6. Man sieht, dass der kleinste Glättungsfaktor die Zeitreihe am stärksten glättet, denn hier geht der aktuelle Wert nur mit einem Gewicht von 0,1 ein, wogegen die „mittleren“ Vergangenheitswerte weiterhin mit 0,9 berücksichtigt werden.

Beispiel für den exponentiell geglätteten DAX

Graph der einfach geglätteten DAX-Werte. (Copyright: Deutsche Bundesbank, Frankfurt am Main, Deutschland)

Es soll mit den monatlichen Durchschnittswerten des Aktienindex DAX für die Monate Januar 1977 bis August 1978 eine exponentielle Glättung berechnet werden. Die Daten liegen nebst den geglätteten Zeitreihenwerten in der Tabelle vor:

DAX-Werte und ihre exponentielle Glättung (α = 0,3)
Monat Zeitpunkt t DAX Vt Glättung y*t
1977 Jan 0 512,3 512,3
1977 Feb 1 496,2 507,5
1977 Mrz 2 509,8 508,2
1977 Apr 3 551,9 521,3
1977 Mai 4 539,9 526,9
1977 Jun 5 524,9 526,3
1977 Jul 6 530,3 527,5
1977 Aug 7 540,9 531,5
1977 Sep 8 541,3 534,4
1977 Okt 9 554,2 540,4
1977 Nov 10 557,5 545,5
1977 Dez 11 549,34 546,7
1978 Jan 12 549,4 547,5
1978 Feb 13 552,9 549,1
1978 Mrz 14 549,7 549,3
1978 Apr 15 532,1 544,1
1978 Mai 16 545,5 544,5
1978 Jun 17 553,0 547,1
1978 Jul 18 582,1 557,6
1978 Aug 19 583,1 565,2

Der erste Wert wird mit 512,3 als Startwert y*0 genommen. Wir verwenden einen Glättungsfaktor α = 0,3.

Es ergeben sich die geglätteten Werte

y_1^* = 0{,}3 \cdot 496{,}2 + 0{,}7 \cdot 512{,}3 = 507{,}5 \;,
y_2^* = 0{,}3 \cdot 509{,}8 + 0{,}7 \cdot 507{,}5 = 508{,}2 \;,
y_3^*= 0{,}3 \cdot 551{,}9 + 0{,}7 \cdot 508{,}2 = 521{,}3 \;,
...

Die Schätzung y*1 ist jetzt der Prognosewert für die Periode 2 und so weiter.

Die Grafik zeigt die Glättung für α = 0,3 und α = 0,7. Man sieht, dass der kleinere Glättungsfaktor die Zeitreihe stärker glättet, denn hier geht der aktuelle Wert jetzt nur mit einem Gewicht von 0,3 ein, wogegen die „mittleren“ Vergangenheitswerte weiterhin mit 0,7 berücksichtigt werden.

Exponentielle Glättung bei trendbehafteten Werten

Die geglätteten Prognosewerte y* liegen systematisch unter den beobachteten trendbehafteten Zeitreihenwerten y

Die exponentielle Glättung ist dann ein empfehlenswertes Verfahren, wenn die Zeitreihenwerte einen chaotischen Eindruck machen und keinerlei Systematik erkennen lassen. Liegen allerdings Beobachtungen vor, die einen Trend beinhalten, d.h. die laufend steigen oder fallen, „schleppen“ die geglätteten Werte „hinterher“. Man sieht in der Grafik deutlich, wie die Schätzwerte immer systematisch unter den beobachteten Werten liegen. Auch in der oberen Grafik der Dax-Kurse liegen beispielsweise zwischen t = 7 und t = 12 die einfach geglätten Schätzwerte immer systematisch unter den beobachteten Werten.

Mit doppelt geglätteten Zeitreihen erreicht man eine korrekte Prognose der trendbehafteten y-Werte

Eine zufriedenstellende Lösung für das Problem, daß bei einem steigenden (fallenden) Trend die Zeitreihenwerte systematisch unterschätzt (überschätzt) werden, bieten gleitende Durchschnitte zweiter Ordung. Hier werden die bereits einmal geglätteten Werte noch einmal einer Glättung unterzogen. Man erhält den Schätzwert y^{**}, der sich analog zu oben berechnet aus

y_t^{**} = \alpha \cdot y_t^{*} + (1- \alpha) \cdot y_{t-1}^{**}

Für einen brauchbaren Prognosewert für Periode t+1 muss man dann bestimmen

\widehat y_{t+1} = 2 \cdot y_{t}^{*}  - y_{t-1}^{**} .




↓  Maßzahl Konzentration
↑  Trend und Saisonkomponente
↑↑ Inhaltsverzeichnis Statistik