Tuesday 14 February 2017

Zentriert Gleitende Mittelwert Gleichung

Bei der Berechnung eines laufenden Gleitendurchschnitts ist es sinnvoll, den Mittelwert in der mittleren Zeitperiode einzutragen. Im vorigen Beispiel haben wir den Durchschnitt der ersten 3 Zeiträume berechnet und neben der Periode 3 platziert. Wir hätten den Durchschnitt in der Mitte platzieren können Zeitintervall von drei Perioden, das heißt, neben Periode 2. Dies funktioniert gut mit ungeraden Zeitperioden, aber nicht so gut für sogar Zeitperioden. Also wo würden wir den ersten gleitenden Durchschnitt platzieren, wenn M 4 Technisch, würde der Moving Average bei t 2,5, 3,5 fallen. Um dieses Problem zu vermeiden, glätten wir die MAs unter Verwendung von M 2. So glätten wir die geglätteten Werte Wenn wir eine gerade Anzahl von Ausdrücken mitteln, müssen wir die geglätteten Werte glätten. Die folgende Tabelle zeigt die Ergebnisse unter Verwendung von M 4.Mittelwerte und zentrierte Bewegungsdurchschnitte Ein paar Punkte über Saisonalität in einer Zeitreihe tragen wiederholen, auch wenn sie offensichtlich erscheinen. Eins ist, dass der Begriff 8220season8221 nicht unbedingt auf die vier Jahreszeiten des Jahres, die aus dem Kippen der Erde8217s Achse resultieren, verweisen. In der prädiktiven Analytik bedeutet 8220sason8221 oft genau, dass, weil viele der Phänomene, die wir studieren, zusammen mit dem Fortschreiten des Frühlings durch den Winter variieren: Verkauf von Winter - oder Sommerausrüstung, Inzidenz von bestimmten weitverbreiteten Krankheiten, Wetterereignisse, die durch die Lage der Jet-Stream und Änderungen in der Temperatur des Wassers im östlichen Pazifischen Ozean, und so weiter. Ebenso können Ereignisse, die regelmäßig auftreten, wie meteorologische Jahreszeiten wirken, obwohl sie nur eine dünne Verbindung zu den Sonnenwenden und Äquinoktien haben. Acht-Stunden-Verschiebungen in Krankenhäusern und Fabriken oft in der Inzidenz der Einnahmen und Ausgaben für Energie ausgedrückt, eine Saison ist acht Stunden lang und die Jahreszeiten Zyklus jeden Tag, nicht jedes Jahr. Fälligkeitsdaten für Steuern signalisieren den Beginn einer Flut von Dollars in städtische, staatliche und föderale Schätze dort, die Saison könnte ein Jahr lang (persönliche Einkommensteuer), sechs Monate (Grundsteuer in vielen Staaten), vierteljährlich (viele Körperschaftssteuern ), und so weiter. Es ist ein wenig merkwürdig, dass wir das Wort 8220season8221 haben, um allgemein auf die regelmäßig wiederkehrende Zeitspanne zu verweisen, aber keinen allgemeinen Begriff für den Zeitraum, in dem eine volle Umdrehung der Jahreszeiten auftritt. 8220Cycle8221 ist möglich, aber in der Analytik und Prognose wird dieser Begriff gewöhnlich als eine Periode unbestimmter Länge, wie z. B. eines Konjunkturzyklus, bezeichnet. In Abwesenheit eines besseren Begriffs, I8217ve verwendet 8220umgreifende Periode8221 in diesem und den folgenden Kapiteln. Das ist nur terminologisches Verstehen. Die Art und Weise, wie wir die Jahreszeiten und die Zeitspanne identifizieren, in der die Jahreszeiten verlaufen, haben reale, wenn auch oft geringfügige Konsequenzen, wie wir ihre Auswirkungen messen. In den folgenden Abschnitten wird diskutiert, wie sich einige Analysten unterscheiden, wie sie die Bewegungsdurchschnitte berechnen, je nachdem, ob die Jahreszahl ungerade oder gerade ist. Mit Moving Averages anstelle von einfachen Mitteln Angenommen, dass eine große Stadt erwägt die Umverteilung ihrer Verkehrspolizei, um besser auf die Inzidenz des Fahrens, während behindert, die die Stadt glaubt erhöht hat. Vor vier Wochen trat eine neue Gesetzgebung in Kraft, die den Besitz und die Erholung von Marihuana legalisierte. Seither scheint die tägliche Anzahl von Verkehrsverhaftungen für DWI zu steigen. Kompliziert ist die Tatsache, dass die Zahl der Verhaftungen an Freitagen und Samstagen zu spitzen scheint. Um zu helfen, Plan für Arbeitskraftanforderungen in die Zukunft, you8217d zu prognostizieren irgendeine zugrunde liegende Tendenz, die gegründet wird. You8217d auch gerne Zeit der Bereitstellung Ihrer Ressourcen zu berücksichtigen, jede Wochenende im Zusammenhang mit Saisonalität that8217s statt. Abbildung 5.9 enthält die relevanten Daten, mit denen Sie arbeiten müssen. Abbildung 5.9 Mit diesem Datensatz bildet jeder Wochentag eine Saison. Sogar durch bloßes Augapfeln der Tabelle in Abbildung 5.9. Können Sie sagen, dass der Trend der Zahl der täglichen Verhaftungen ist. You8217ll haben zu planen, um die Zahl der Verkehr Offiziere zu erweitern, und hoffen, dass die Tendenz aus bald. Weiterhin sind die Daten die Vorstellung, dass mehr Verhaftungen routinemäßig am Freitag und Samstag stattfinden, so dass Ihre Ressourcenzuweisung muss diese Spikes Adresse. Aber Sie müssen den zugrunde liegenden Trend zu quantifizieren, um festzustellen, wie viele zusätzliche Polizei müssen Sie auf zu bringen. Sie müssen auch die erwartete Größe der Wochenenden Spikes zu quantifizieren, um festzustellen, wie viele zusätzliche Polizei müssen Sie für unberechenbare Fahrer an diesen Tagen. Das Problem ist, dass, wie Sie noch don8217t wissen, wie viel von der täglichen Zunahme ist aufgrund der Trend und wie viel ist aufgrund dieser Wochenendeffekt. Sie können beginnen, indem Sie die Zeitreihe. Früher in diesem Kapitel, in 8220Simple saisonale Mittelwerte, 8221 sahen Sie ein Beispiel, wie man eine Zeitreihe zu trennen, um die saisonalen Effekte mit der Methode der einfachen Mitteln zu isolieren. In diesem Abschnitt sehen Sie, wie dies zu tun, indem Sie mit gleitenden Mittelungen8212 wahrscheinlich, die Moving-Averages-Ansatz wird häufiger in der prädiktiven Analytik als die einfache Mittel-Ansatz verwendet. Es gibt verschiedene Gründe für die größere Popularität von gleitenden Durchschnitten, unter ihnen, dass die Moving-Averages-Ansatz nicht Sie bitten, Ihre Daten in den Prozess der Quantifizierung eines Trends zu kollabieren. Daran erinnern, dass das frühere Beispiel es notwendig gemacht hat, vierteljährliche Durchschnittswerte auf Jahresdurchschnitte zu reduzieren, einen jährlichen Trend zu berechnen und dann ein Viertel des jährlichen Trends in jedem Quartal des Jahres zu verteilen. Dieser Schritt war notwendig, um den Trend von den saisonalen Auswirkungen zu entfernen. Im Gegensatz dazu ermöglicht der Moving-Averages-Ansatz, die Zeitreihen zu trennen, ohne auf diese Art von Maschinierung zurückzugreifen. Abbildung 5.10 zeigt, wie der Moving-Averages-Ansatz im vorliegenden Beispiel funktioniert. Abbildung 5.10 Der gleitende Durchschnitt im zweiten Diagramm verdeutlicht den zugrunde liegenden Trend. Abbildung 5.10 fügt eine gleitende Durchschnittsspalte und eine Spalte für bestimmte Jahreszeiten hinzu. Auf den Datensatz in Abbildung 5.9. Beide Ergänzungen bedürfen einer Diskussion. Die Spikes in Festnahmen, die am Wochenende stattfinden gibt Ihnen Grund zu der Annahme, dass you8217re Arbeit mit Jahreszeiten, die einmal pro Woche wiederholen. Beginnen Sie also, indem Sie den Durchschnitt für die Umfassungsperiode8212 erhalten, dh die ersten sieben Jahreszeiten, Montag bis Sonntag. Die Formel für den Durchschnitt in Zelle D5, dem ersten verfügbaren gleitenden Durchschnitt, ist wie folgt: Diese Formel wird kopiert und über die Zelle D29 eingefügt, so dass Sie 25 gleitende Mittelwerte auf der Grundlage von 25 Läufen von sieben aufeinander folgenden Tagen haben. Beachten Sie, dass, um sowohl die erste und die letzten Beobachtungen in der Zeitreihe zeigen, habe ich die Zeilen 10 bis 17 ausgeblendet. Sie können sie ausblenden, wenn Sie möchten, in diesem Kapitel8217s Arbeitsmappe, verfügbar von der Publisher8217s Website. Erstellen Sie eine Mehrfachauswahl sichtbarer Zeilen 9 und 18, klicken Sie mit der rechten Maustaste auf einen ihrer Zeilenüberschriften und wählen Sie im Kontextmenü die Option Einblenden aus. Wenn Sie eine worksheet8217s Zeilen ausblenden, wie I8217ve in Abbildung 5.10 durchgeführt. Werden alle Charted-Daten in den ausgeblendeten Zeilen auch im Diagramm ausgeblendet. Die X-Achsen-Etiketten identifizieren nur die Datenpunkte, die im Diagramm erscheinen. Da jeder gleitende Durchschnitt in Abbildung 5.10 sieben Tage umfasst, wird kein gleitender Durchschnitt mit den ersten drei oder letzten drei tatsächlichen Beobachtungen gepaart. Das Kopieren und Einfügen der Formel in Zelle D5 einen Tag nach Zelle D4 führt Sie aus Beobachtungen heraus8212die keine Beobachtung in Zelle C1 aufgezeichnet ist. Ähnlich ist kein gleitender Durchschnitt unterhalb der Zelle D29 aufgezeichnet. Das Kopieren und Einfügen der Formel in D29 in D30 würde eine Beobachtung in Zelle C33 erfordern, und keine Beobachtung ist für den Tag verfügbar, den die Zelle repräsentieren würde. Es wäre natürlich möglich, die Länge des gleitenden Durchschnittes auf etwa fünf statt sieben zu verkürzen. Das bedeutet, dass die gleitenden Durchschnittsformeln in Abbildung 5.10 in Zelle D4 anstelle von D5 beginnen könnten. Doch bei dieser Art von Analyse, wollen Sie die Länge der gleitenden Durchschnitt gleich der Anzahl der Jahreszeiten: sieben Tage in der Woche für Ereignisse, die wöchentlich wiederkehren, impliziert einen gleitenden Durchschnitt der Länge sieben und vier Quartalen in einem Jahr für Veranstaltungen, die Recur jährlich impliziert einen gleitenden Durchschnitt der Länge vier. In ähnlicher Weise analysieren wir saisonale Effekte in der Regel so, dass sie innerhalb der umschreibenden Zeitspanne auf Null gehen. Wie Sie in diesem ersten Kapitel, auf einfachen Durchschnittswerten, gesehen haben, geschieht dies, indem man den Durchschnitt der vier Quartale eines Jahres berechnet und dann den Mittelwert für das Jahr von jeder vierteljährlichen Zahl subtrahiert. So wird sichergestellt, dass die Summe der saisonalen Effekte null ist. Im Gegenzug, dass8217s nützlich, weil es die saisonalen Auswirkungen auf eine gemeinsame footing8212a Sommereffekt von 11 ist so weit von der Mittelwert als Winter-Effekt von 821111.Wenn Sie wollen, um durchschnittlich fünf Jahreszeiten anstelle von sieben, um Ihre gleitenden Durchschnitt, you8217re besser Ein Phänomen zu finden, das sich alle fünf Jahreszeiten wiederholt, anstatt alle sieben. Allerdings, wenn Sie den Durchschnitt der saisonalen Effekte später in den Prozess zu nehmen, sind diese Mittelwerte wahrscheinlich nicht auf Null summieren. Es ist notwendig, an diesem Punkt zu kalibrieren oder zu normalisieren. Die Mittelwerte, so daß ihre Summe Null ist. Wenn that8217s getan, die durchschnittlichen saisonalen Mittel drücken die Wirkung auf eine Zeitperiode der Zugehörigkeit zu einer bestimmten Saison. Nach der Normalisierung werden die saisonalen Mittelwerte als saisonale Indizes bezeichnet, die dieses Kapitel bereits mehrfach erwähnt hat. Sie sehen, wie es später in diesem Kapitel funktioniert, in 8220Detrending der Serie mit Moving Averages.8221 Verstehen spezieller Jahreszeiten Abbildung 5.10 zeigt auch, was in der Spalte E als saisonabhängig bezeichnet wird. Sie sind nach dem Subtrahieren des gleitenden Mittelwerts von der tatsächlichen Beobachtung übrig. Um ein Gefühl dafür zu bekommen, was die spezifischen Saisonzeiten darstellen, betrachten Sie den gleitenden Durchschnitt in Zelle D5. Es ist der Mittelwert der Beobachtungen in C2: C8. Die Abweichungen der einzelnen Beobachtungen aus dem gleitenden Durchschnitt (z. B. C2 8211 D5) werden auf Null berechnet. Daher drückt jede Abweichung die Wirkung aus, die mit dem bestimmten Tag in dieser bestimmten Woche verbunden ist. It8217s eine spezifische saisonale, dann8212spezifisch, weil die Abweichung gilt für diese besondere Montag oder Dienstag und so weiter, und saisonal, weil in diesem Beispiel behandeln wir jeden Tag, als ob es eine Saison in der Umfassungszeit von einer Woche waren. Weil jede saisonale Maßnahme den Effekt des Seins in dieser Jahreszeit gegenüber dem gleitenden Durchschnitt für diese Gruppe von (hier) sieben Jahreszeiten misst, können Sie anschließend die spezifischen Saisonzeiten für eine bestimmte Jahreszeit (zB alle Freitagen in Ihrem Zeit-Serie) zu schätzen, dass Saison8217s allgemeine, anstatt spezifische, Wirkung. Dieser Durchschnitt wird nicht durch eine zugrunde liegende Tendenz in der Zeitreihe verwechselt, weil jede spezifische Saison eine Abweichung von ihrem eigenen bewegten Durchschnitt ausdrückt. Aligning the Moving Averages There8217s auch die Frage der Ausrichtung der gleitenden Mittelwerte mit dem ursprünglichen Datensatz. In Abbildung 5.10. Ich habe jeden gleitenden Durchschnitt mit dem Mittelpunkt des Bereichs der Beobachtungen ausgerichtet, die er enthält. So berechnet beispielsweise die Formel in Zelle D5 die Beobachtungen in C2: C8, und ich habe sie mit der vierten Beobachtung, dem Mittelpunkt des gemittelten Bereichs, durch Platzieren in Zeile 5 ausgerichtet. Diese Anordnung wird als zentrierter gleitender Durchschnitt bezeichnet . Und viele Analytiker bevorzugen es, jeden gleitenden Durchschnitt mit dem Mittelpunkt der Beobachtungen auszurichten, die er mittelt. Beachten Sie, dass in diesem Zusammenhang 8220midpoint8221 auf die Mitte einer Zeitspanne verweist: Donnerstag ist der Mittelpunkt von Montag bis Sonntag. Es bezieht sich nicht auf den Median der beobachteten Werte, obwohl es natürlich in der Praxis so funktionieren könnte. Ein weiterer Ansatz ist der nachlaufende gleitende Durchschnitt. In diesem Fall wird jeder gleitende Durchschnitt mit der abschließenden Beobachtung ausgerichtet, die es im Durchschnitt8212 gibt, und folglich verfolgt es hinter seinen Argumenten. Dies ist oft die bevorzugte Anordnung, wenn Sie einen gleitenden Durchschnitt als Prognose verwenden möchten, wie dies bei exponentieller Glättung der Fall ist, da Ihr endgültiger gleitender Durchschnitt mit der endgültigen verfügbaren Beobachtung zusammenfällt. Centered Moving Averages mit Even Numbers of Seasons Wir nehmen in der Regel ein spezielles Verfahren, wenn die Anzahl der Jahreszeiten ist sogar eher als ungerade. Das ist der typische Sachverhalt: In der Umfassungsperiode gibt es für die typischen Jahreszeiten, wie Monate, Quartiere und vierziger Jahre (für Wahlen), sogar Jahreszahlen. Die Schwierigkeit mit einer geraden Anzahl von Jahreszeiten ist, dass es keinen Mittelpunkt gibt. Zwei ist nicht der Mittelpunkt eines Bereichs, der bei 1 beginnt und bei 4 endet, und keiner ist 3, wenn man sagen kann, daß er einen hat, sein Mittelpunkt ist 2,5. Sechs ist nicht der Mittelpunkt von 1 bis 12, und keiner ist sein rein theoretischer Mittelpunkt ist 6,5. Um zu handeln, als ob ein Mittelpunkt existiert, müssen Sie eine Ebene der Mittelung auf den gleitenden Durchschnittswerten hinzufügen. Siehe Abbildung 5.11. Abbildung 5.11 Excel bietet mehrere Möglichkeiten, einen zentrierten gleitenden Durchschnitt zu berechnen. Die Idee hinter diesem Ansatz, einen gleitenden Durchschnitt zu erreichen, der auf einen vorhandenen Mittelpunkt zentriert ist, wenn dort8217s eine gerade Zahl Jahreszeiten ist, diesen Mittelpunkt vorwärts durch eine halbe Jahreszeit zu ziehen. Sie berechnen einen gleitenden Durchschnitt, der auf den dritten Zeitpunkt zentriert wäre, wenn fünf Jahreszeiten statt vier eine volle Umdrehung des Kalenders bilden. That8217s getan, indem sie zwei aufeinander folgende gleitende Durchschnitte und Mittelung sie. Also in Abbildung 5.11. Dort8217s ein gleitender Durchschnitt in der Zelle E6, der die Werte in D3: D9 mittelt. Weil es vier saisonale Werte in D3: D9 gibt, wird der gleitende Durchschnitt in E6 als zentriert in der imaginären Jahreszeit 2,5 gedacht, einen halben Punkt hinter der ersten verfügbaren Kandidatensaison, 3. (Seasons 1 und 2 sind als Mittelpunkte nicht verfügbar Mangel an Daten zum Durchschnitt vor Saison 1.) Beachten Sie jedoch, dass der gleitende Durchschnitt in Zelle E8 die Werte in D5: D11, die zweite bis fünfte in der Zeitreihe mittelt. Dieser Mittelwert wird bei (imaginärer) Punkt 3.5 zentriert, wobei eine volle Periode vor dem Mittelwert bei 2,5 liegt. Durch Mittelung der beiden gleitenden Mittelwerte, so das Denken geht, können Sie den Mittelpunkt des ersten gleitenden Mittelwerts um einen halben Punkt von 2,5 auf 3 ziehen. Das bedeutet, was die Mittelwerte in Spalte F von 5.11 tun. Die Zelle F7 liefert den Mittelwert der sich bewegenden Mittelwerte in E6 und E8. Und der Durchschnitt in F7 ist mit dem dritten Datenpunkt in der ursprünglichen Zeitreihe, in Zelle D7, ausgerichtet, um zu betonen, dass der Durchschnitt auf dieser Jahreszeit zentriert ist. Wenn Sie die Formel in Zelle F7 sowie die sich bewegenden Mittelwerte in den Zellen E6 und E8 erweitern, sehen Sie, dass es sich dabei um einen gewichteten Mittelwert der ersten fünf Werte in der Zeitreihe handelt, wobei der erste und fünfte Wert ein Gewicht haben Von 1 und die zweiten bis vierten Werte bei einem Gewicht von 2. Das führt uns zu einer schnelleren und einfacheren Methode, einen zentrierten gleitenden Durchschnitt mit einer geraden Anzahl von Jahreszeiten zu berechnen. Noch in Abbildung 5.11. Die Gewichte werden im Bereich H3: H11 gespeichert. Diese Formel liefert den ersten zentrierten gleitenden Durchschnitt in Zelle I7: Diese Formel gibt 13,75 zurück. Der mit dem Wert identisch ist, der durch die doppelte Durchschnittsformel in Zelle F7 berechnet wird. Die Bezugnahme auf die Gewichte absolut, mit Hilfe der Dollarzeichen in H3: H11. Können Sie die Formel kopieren und so weit wie nötig einfügen, um den Rest der zentrierten gleitenden Mittelwerte zu erhalten. Detrending der Serie mit gleitenden Mitteln Wenn Sie die gleitenden Mittelwerte aus den ursprünglichen Beobachtungen subtrahiert haben, um die spezifischen Saisonzeiten zu erhalten, haben Sie den zugrunde liegenden Trend aus der Serie entfernt. Was in den spezifischen Saisons verbleibt, ist normalerweise eine stationäre, horizontale Reihe mit zwei Effekten, die dazu führen, dass die spezifischen Saisonzeiten von einer absolut geraden Linie abweichen: die saisonalen Effekte und der zufällige Fehler in den ursprünglichen Beobachtungen. Abbildung 5.12 zeigt die Ergebnisse für dieses Beispiel. Abbildung 5.12 Die spezifischen saisonalen Effekte für Freitag und Samstag bleiben in den abgebrochenen Reihen klar. Das obere Diagramm in Abbildung 5.12 zeigt die ursprünglichen täglichen Beobachtungen. Sowohl der allgemeine Aufwärtstrend als auch das saisonale Wochenende sind klar. Das untere Diagramm zeigt die spezifischen Saisonzeiten: das Ergebnis der Detrierung der ursprünglichen Serie mit einem gleitenden Durchschnittsfilter, wie bereits in 8220Untersuchung spezieller Jahreszeiten beschrieben.8221 Sie können sehen, dass die detrended Reihe jetzt praktisch horizontal ist (eine lineare Trendlinie für die spezifischen Saisonzeiten Hat einen leichten Abwärtstrend), aber die saisonalen Freitag und Samstag Spikes sind noch vorhanden. Der nächste Schritt ist, über die spezifischen Saisonzeiten hinaus zu den saisonalen Indizes zu gelangen. Siehe Abbildung 5.13. Abbildung 5.13 Die spezifischen saisonalen Effekte werden zuerst gemittelt und dann normalisiert, um die saisonalen Indizes zu erreichen. In Abbildung 5.13. Werden die spezifischen Saisons in Spalte E in der tabellarischen Form im Bereich H4: N7 neu angeordnet. Der Zweck ist einfach, um es einfacher, die saisonalen Mittelwerte berechnen. Diese Mittelwerte werden in H11: N11 gezeigt. Jedoch sind die Zahlen in H11: N11 Mittelwerte, nicht Abweichungen von einem Durchschnitt, und daher können wir erwarten, dass sie auf Null summieren. Wir müssen sie noch anpassen, damit sie Abweichungen von einem großen Mittel ausdrücken. Das große Mittel erscheint in Zelle N13 und ist der Durchschnitt der saisonalen Mittelwerte. Wir können zu den saisonalen Indizes gelangen, indem wir den großen Mittelwert in N13 von jedem der saisonalen Mittelwerte subtrahieren. Das Ergebnis liegt im Bereich H17: N17. Diese saisonalen Indizes sind nicht mehr spezifisch für einen bestimmten gleitenden Durchschnitt, wie dies bei den spezifischen Saisonzeiten in Spalte E der Fall ist. Weil sie auf der Grundlage eines Durchschnittes jeder Instanz einer gegebenen Jahreszeit den durchschnittlichen Effekt einer gegebenen Jahreszeit über die Vier Wochen in der Zeitreihe. Darüber hinaus handelt es sich hierbei um Maßnahmen einer Saison8217s8212wir, ein Tag8217s8212Effekt auf Verkehrsstöße vis-224-vis dem Durchschnitt für einen Sieben-Tage-Zeitraum. Wir können jetzt jene saisonalen Indizes verwenden, um die Serie zu deseasonalisieren. We8217ll verwenden die entsalzte Reihe, um Prognosen durch lineare Regression oder Holt8217s Methode der Glättung von Trendreihen (siehe Kapitel 4) zu erhalten. Dann fügen wir einfach die saisonalen Indizes zurück in die Prognosen zu reseasonalize sie. All dies erscheint in Abbildung 5.14. Abbildung 5.14 Nachdem Sie die saisonalen Indizes haben, sind die letzten Schlüsse, wie hier angewendet, die gleichen wie in der Methode der einfachen Mittelwerte. Die in Abbildung 5.14 dargestellten Schritte sind weitgehend dieselben wie in den Abbildungen 5.6 und 5.7. Diskutiert in den folgenden Abschnitten. Deseasonalisierung der Beobachtungen Subtrahieren Sie die saisonalen Indizes von den ursprünglichen Beobachtungen, um die Daten zu deseasonalisieren. Sie können dies tun, wie in Abbildung 5.14 gezeigt. In dem die ursprünglichen Beobachtungen und die saisonalen Indizes als zwei Listen, beginnend in der gleichen Zeile, Spalten C und F, angeordnet sind. Diese Anordnung macht es ein wenig leichter, die Berechnungen zu strukturieren. Sie können auch die Subtraktion durchführen, wie in Abbildung 5.6 gezeigt. In dem die ursprünglichen vierteljährlichen Beobachtungen (C12: F16), die vierteljährlichen Indizes (C8: F8) und die entsalzten Ergebnisse (C20: F24) tabellarisch dargestellt sind. Diese Anordnung macht es ein wenig einfacher, sich auf die saisonalen Indizes und die gealterten Quartalsschwerpunkte zu konzentrieren. Prognose aus der Deseasonalized Observations In Abbildung 5.14. Sind die entsalzten Beobachtungen in Spalte H und in Abbildung 5.7 in Spalte C aufgeführt. Unabhängig davon, ob Sie einen Regressionsansatz oder einen Glättungsansatz für die Prognose verwenden wollen, ist es am besten, die entsalzten Beobachtungen in einer einzigen Spaltenliste zu ordnen. In Abbildung 5.14. Die Prognosen sind in Spalte J. Die folgende Matrixformel wird im Bereich J2: J32 eingegeben. In diesem Kapitel habe ich darauf hingewiesen, dass Excel die Standardwerte 1 liefert, wenn Sie das Argument x-values ​​aus den Argumenten TREND () function8217s weglassen. 2. N ist. Wobei n die Anzahl der y-Werte ist. In der gerade angegebenen Formel enthält H2: H32 31 y-Werte. Da das Argument, das normalerweise die x-Werte enthält, fehlt, liefert Excel die Standardwerte 1. 2. 31. Das sind die Werte, die wir sowieso verwenden möchten, in Spalte B, so dass die Formel wie angegeben zu TREND äquivalent ist (H2: H32, B2: B32). Und das ist die Struktur, die in D5 verwendet wird: D24 in Abbildung 5.7: Einstufige Prognose erstellen Bisher haben Sie für Prognosen der entsalzten Zeitreihen von t 1 bis t 31 in Abbildung 5.14 geplant. Und von t 1 bis t 20 in Abbildung 5.7. Diese Prognosen stellen nützliche Informationen für verschiedene Zwecke dar, einschließlich der Bewertung der Genauigkeit der Prognosen mittels einer RMSE-Analyse. Aber Ihr Hauptzweck ist die Prognose mindestens die nächste, noch unobserved Zeitraum. Um das zu erhalten, können Sie zunächst von der TREND () - oder der LINEST () - Funktion prognostizieren, wenn Sie mit Regression oder mit der exponentiellen Glättungsformel arbeiten, wenn Sie die Methode Holt8217s verwenden. Dann können Sie den zugehörigen saisonalen Index zur Regressions - oder Glättungsprognose hinzufügen, um eine Prognose zu erhalten, die sowohl den Trend als auch den saisonalen Effekt beinhaltet. In Abbildung 5.14. Erhalten Sie die Regressionsvorhersage in Zelle J33 mit dieser Formel: In dieser Formel sind die y-Werte in H2: H32 die gleichen wie in den anderen TREND () Formeln in Spalte J. So sind die (Standard-) x-Werte von 1 Durch 32. Nun aber liefern Sie einen neuen x-Wert als das dritte Argument function8217s, das Sie TREND () in Zelle B33 suchen. It8217s 32. Der nächste Wert von t. Und Excel gibt den Wert 156.3 in Zelle J33 zurück. Die Funktion TREND () in Zelle J33 sagt Excel, in der Tat, 8220 Berechnen Sie die Regressionsgleichung für die Werte in H2: H32 regressiv auf den t-Werten 1 bis 31. Wenden Sie die Regressionsgleichung auf den neuen x-Wert von 32 an und geben Sie das Ergebnis zurück.8221 Sie finden denselben Ansatz in Zelle D25 von Abbildung 5.7. Wo die Formel, um die One-Step-Ahead-Prognose ist dies: Hinzufügen der saisonalen Indizes zurück Im letzten Schritt ist es, die Prognosen durch Addition der saisonalen Indizes zu den Trend-Prognosen zu reseasonalisieren, umzukehren, was Sie haben vier Schritte zurück, wenn Sie subtrahiert Indizes aus den ursprünglichen Beobachtungen. Dies geschieht in Spalte F in Abbildung 5.7 und Spalte K in Abbildung 5.14. Don8217t vergessen, den entsprechenden saisonalen Index für die One-Step-Ahead-Prognose hinzuzufügen, wobei die Ergebnisse in Zelle F25 in Abbildung 5.7 und in Zelle K33 in Abbildung 5.14 gezeigt werden. (I8217ve schraffierte die einstufigen Zellen sowohl in Abbildung 5.7 als auch Abbildung 5.14, um die Prognosen hervorzuheben.) Sie können Diagramme von drei Darstellungen der Verkehrsstoppdaten in Abbildung 5.15 finden. Die entsalzte Reihe, die lineare Prognose der entsalzten Daten und die reseasonalisierten Prognosen. Beachten Sie, dass die Prognosen sowohl die allgemeine Tendenz der ursprünglichen Daten und seine FridaySaturday Spikes enthalten. Abbildung 5.15 Charting der Prognosen. Bewertung von Durchschnitten Verschieben von Durchschnitten Bei herkömmlichen Datensätzen ist der Mittelwert oft der erste, und eine der nützlichsten, zusammenfassenden Statistiken zu berechnen. Wenn die Daten in Form einer Zeitreihe vorliegen, ist das Serienmittel eine nützliche Maßnahme, spiegelt aber nicht die dynamische Natur der Daten wider. Meanwerte, die über kurzgeschlossene Perioden berechnet werden, die entweder der aktuellen Periode vorangehen oder auf die aktuelle Periode zentriert sind, sind oft nützlicher. Weil solche Mittelwerte sich ändern oder sich bewegen, wenn sich die aktuelle Periode von der Zeit t & sub2 ;, t & sub3; usw. bewegt, werden sie als gleitende Durchschnittswerte (Mas) bezeichnet. Ein einfacher gleitender Durchschnitt ist (üblicherweise) der ungewichtete Durchschnitt von k vorherigen Werten. Ein exponentiell gewichteter gleitender Durchschnitt ist im Wesentlichen derselbe wie ein einfacher gleitender Durchschnitt, aber mit Beiträgen zum Mittelwert, der durch ihre Nähe zur aktuellen Zeit gewichtet wird. Da es keine einzige, sondern eine ganze Reihe von gleitenden Mittelwerten für eine beliebige Reihe gibt, kann der Satz von Mas selbst auf Graphen aufgetragen, als Serie analysiert und in der Modellierung und Prognose verwendet werden. Eine Reihe von Modellen kann mit gleitenden Durchschnitten konstruiert werden, und diese sind als MA-Modelle bekannt. Wenn solche Modelle mit autoregressiven (AR) Modellen kombiniert werden, sind die resultierenden zusammengesetzten Modelle als ARMA - oder ARIMA-Modelle bekannt (die I ist für integriert). Einfache gleitende Mittelwerte Da eine Zeitreihe als ein Satz von Werten betrachtet werden kann, können t 1,2,3,4, n der Mittelwert dieser Werte berechnet werden. Wenn wir annehmen, daß n ziemlich groß ist, so wählen wir eine ganze Zahl k, die viel kleiner als n ist. Können wir einen Satz von Blockdurchschnitten oder einfache Bewegungsdurchschnitte (der Ordnung k) berechnen: Jede Messung repräsentiert den Durchschnitt der Datenwerte über einem Intervall von k Beobachtungen. Man beachte, daß das erste mögliche MA der Ordnung kgt0 dasjenige für tk ist. Allgemeiner können wir den zusätzlichen Index in die obigen Ausdrücke schreiben und schreiben: Dies bedeutet, daß der geschätzte Mittelwert zum Zeitpunkt t der einfache Mittelwert des beobachteten Wertes zum Zeitpunkt t und den vorhergehenden k -1 Zeitschritten ist. Wenn Gewichte angewandt werden, die den Beitrag von Beobachtungen verringern, die weiter weg in der Zeit sind, wird der gleitende Durchschnitt als exponentiell geglättet. Gleitende Mittelwerte werden häufig als eine Form der Prognose verwendet, wobei der Schätzwert für eine Reihe zum Zeitpunkt t 1, S t1. Wird als MA für den Zeitraum bis einschließlich der Zeit t genommen. z. B. Die heutige Schätzung basiert auf einem Durchschnitt der bisherigen aufgezeichneten Werte bis einschließlich gestern (für tägliche Daten). Einfache gleitende Mittelwerte können als eine Form der Glättung gesehen werden. In dem nachfolgend dargestellten Beispiel wurde der in der Einleitung zu diesem Thema gezeigte Luftverschmutzungs-Datensatz um eine 7-tägige gleitende Linie (MA) ergänzt, die hier in Rot dargestellt ist. Wie man sehen kann, glättet die MA-Linie die Spitzen und Täler in den Daten und kann sehr hilfreich sein, um Trends zu identifizieren. Die Standard-Vorwärtsberechnungsformel bedeutet, dass die ersten k-1-Datenpunkte keinen MA-Wert haben, aber danach rechnen sich die Berechnungen auf den Enddatenpunkt in der Reihe. PM10 tägliche Mittelwerte, Greenwich Quelle: London Air Quality Network, londonair. org. uk Ein Grund für die Berechnung einfacher gleitender Mittelwerte in der beschriebenen Weise ist, dass es Werte für alle Zeitschlitze von der Zeit tk bis zur Gegenwart berechnet werden kann, und Wenn eine neue Messung für die Zeit t 1 erhalten wird, kann die MA für die Zeit t 1 zu dem bereits berechneten Satz addiert werden. Dies bietet eine einfache Vorgehensweise für dynamische Datensätze. Allerdings gibt es einige Probleme mit diesem Ansatz. Es ist vernünftig zu argumentieren, dass sich der Mittelwert der letzten 3 Perioden zum Zeitpunkt t -1, nicht zur Zeit t, befinden sollte. Und für eine MA über eine gerade Anzahl von Perioden vielleicht sollte sie sich in der Mitte zwischen zwei Zeitintervallen befinden. Eine Lösung für dieses Problem besteht darin, zentrierte MA-Berechnungen zu verwenden, bei denen der MA zum Zeitpunkt t der Mittelwert einer symmetrischen Menge von Werten um t ist. Trotz seiner offensichtlichen Verdienste wird dieser Ansatz nicht allgemein verwendet, weil er erfordert, dass Daten für zukünftige Ereignisse verfügbar sind, was möglicherweise nicht der Fall sein kann. In Fällen, in denen die Analyse vollständig aus einer bestehenden Serie besteht, kann die Verwendung von zentriertem Mas bevorzugt sein. Einfache gleitende Mittelwerte können als eine Form von Glättung, Entfernen einiger Hochfrequenzkomponenten einer Zeitreihe und Hervorhebung (aber nicht Entfernen) von Trends in einer ähnlichen Weise wie der allgemeine Begriff der digitalen Filterung betrachtet werden. Tatsächlich sind die gleitenden Mittelwerte eine Form eines linearen Filters. Es ist möglich, eine gleitende Durchschnittsberechnung auf eine Reihe anzuwenden, die bereits geglättet worden ist, d. h. Glätten oder Filtern einer bereits geglätteten Reihe. Zum Beispiel können wir mit einem gleitenden Mittelwert der Ordnung 2 die Berechnungen unter Verwendung von Gewichten betrachten, so daß die MA bei x 2 0,5 x 1 0,5 x 2 gilt. Ebenso ist die MA bei x 3 0,5 x 2 0,5 x 3 Eine zweite Glättungs - oder Filterstufe anwenden, so haben wir 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3, dh die zweistufige Filterung Prozess (oder Faltung) einen variabel gewichteten symmetrischen gleitenden Durchschnitt mit Gewichten erzeugt hat. Mehrere Windungen können sehr komplexe gewichtete gleitende Durchschnitte erzeugen, von denen einige speziell in Spezialgebieten, wie etwa in Lebensversicherungsberechnungen, gefunden wurden. Bewegungsdurchschnitte können verwendet werden, um periodische Effekte zu entfernen, wenn sie mit der Länge der Periodizität als bekannt berechnet werden. Zum Beispiel können mit monatlichen Daten saisonale Schwankungen oft entfernt werden (wenn dies das Ziel ist), indem Sie eine symmetrische 12-monatigen gleitenden Durchschnitt mit allen Monaten gleich gewichtet, mit Ausnahme der ersten und letzten, die mit 12 gewichtet werden 13 Monate im symmetrischen Modell (aktuelle Zeit, t - 6 Monate). Die Gesamtzahl wird durch 12 geteilt. Ähnliche Verfahren können für jede wohldefinierte Periodizität angenommen werden. Exponentiell gewichtete Bewegungsdurchschnitte (EWMA) Mit der einfachen gleitenden Durchschnittsformel werden alle Beobachtungen gleich gewichtet. Wenn wir diese Gleichgewichte, alpha t. Jedes der k Gewichte würde 1 k betragen. So dass die Summe der Gewichte würde 1, und die Formel wäre: Wir haben bereits gesehen, dass mehrere Anwendungen dieses Prozesses in die Gewichte variieren führen. Bei exponentiell gewichteten Bewegungsdurchschnitten wird der Beitrag zum Mittelwert aus mehr zeitlich entfernten Beobachtungen verringert, wodurch neuere (lokale) Ereignisse hervorgehoben werden. Im wesentlichen wird ein Glättungsparameter 0lt alpha lt1 eingeführt und die Formel überarbeitet: Eine symmetrische Version dieser Formel würde die Form haben: Wenn die Gewichte im symmetrischen Modell als die Ausdrücke der Terme der Binomialdehnung ausgewählt werden, (1212) 2q. Sie summieren sich auf 1, und wenn q groß wird, nähert sich die Normalverteilung. Dies ist eine Form der Kerngewichtung, wobei das Binomial als Kernfunktion dient. Die im vorigen Teilabschnitt beschriebene zweistufige Faltung ist genau diese Anordnung, wobei q 1 die Gewichte ergibt. Bei der exponentiellen Glättung ist es notwendig, einen Satz von Gewichten zu verwenden, die auf 1 summieren und die geometrisch verkleinern. Die verwendeten Gewichte haben typischerweise die Form: Um zu zeigen, daß diese Gewichte zu 1 summieren, betrachten wir die Erweiterung von 1 als Reihe. Wir können den Ausdruck in Klammern schreiben und erweitern, indem wir die binomische Formel (1- x) p verwenden. Wobei x (1-) und p-1, was ergibt, ergibt sich daraus eine Form des gewichteten gleitenden Mittelwerts der Form: Diese Summation kann als eine Rekursionsrelation geschrieben werden, die die Berechnung erheblich vereinfacht und das Problem vermeidet, Sollte strikt unendlich sein, damit die Gewichte auf 1 summieren (für kleine Werte von Alpha ist dies typischerweise nicht der Fall). Die von verschiedenen Autoren verwendete Schreibweise variiert. Einige verwenden den Buchstaben S, um anzuzeigen, daß die Formel im wesentlichen eine geglättete Variable ist, und schreiben: während die kontrolltheoretische Literatur oft Z anstelle von S für die exponentiell gewichteten oder geglätteten Werte verwendet (siehe z. B. Lucas und Saccucci, 1990, LUC1) , Und die NIST-Website für weitere Details und bearbeitete Beispiele). Die Formeln, die oben zitiert wurden, stammen aus der Arbeit von Roberts (1959, ROB1), aber Hunter (1986, HUN1) verwendet einen Ausdruck der Form, die für die Verwendung in einigen Kontrollverfahren geeigneter sein kann. Bei alpha 1 ist die mittlere Schätzung einfach ihr gemessener Wert (oder der Wert des vorherigen Datenelements). Bei 0,5 ist die Schätzung der einfache gleitende Durchschnitt der aktuellen und vorherigen Messungen. In Prognosemodellen wird der Wert S t. Wird oft als Schätzwert oder Prognosewert für die nächste Zeitperiode, dh als Schätzung für x zum Zeitpunkt t 1, verwendet. Somit haben wir: Dies zeigt, dass der Prognosewert zum Zeitpunkt t 1 eine Kombination des vorherigen exponentiell gewichteten gleitenden Durchschnitts ist Plus eine Komponente, die den gewichteten Vorhersagefehler darstellt, epsilon. Zum Zeitpunkt t. Wenn eine Zeitreihe gegeben wird und eine Prognose erforderlich ist, ist ein Wert für alpha erforderlich. Dies kann aus den vorhandenen Daten abgeschätzt werden, indem die Summe der quadrierten Prädiktionsfehler, die mit variierenden Werten von alpha für jedes t 2,3 erhalten werden, ausgewertet wird. Wobei der erste Schätzwert der erste beobachtete Datenwert x ist. Bei Steueranwendungen ist der Wert von alpha wichtig, da er bei der Bestimmung der oberen und unteren Steuergrenzen verwendet wird und die erwartete durchschnittliche Lauflänge (ARL) beeinflusst Bevor diese Kontrollgrenzen unterbrochen werden (unter der Annahme, dass die Zeitreihe eine Menge von zufälligen, identisch verteilten unabhängigen Variablen mit gemeinsamer Varianz darstellt). Unter diesen Umständen ist die Varianz der Kontrollstatistik: (Lucas und Saccucci, 1990): Kontrollgrenzen werden gewöhnlich als feste Vielfache dieser asymptotischen Varianz festgelegt, z. B. - 3-fache Standardabweichung. Wenn beispielsweise & alpha; 0,25 angenommen wird und die zu überwachenden Daten eine Normalverteilung N (0,1) haben, werden bei der Steuerung die Steuergrenzen - 1,134 und der Prozess eine oder andere Grenze in 500 Schritten erreichen im Durchschnitt. Lucas und Saccucci (1990 LUC1) leiten die ARLs für eine breite Palette von Alpha-Werten und unter verschiedenen Annahmen unter Verwendung von Markov-Chain-Prozeduren ab. Sie tabellieren die Ergebnisse, einschließlich der Bereitstellung von ARLs, wenn der Mittelwert des Kontrollprozesses um ein Vielfaches der Standardabweichung verschoben worden ist. Beispielsweise beträgt bei einer 0,5-Verschiebung mit alpha 0,25 die ARL weniger als 50 Zeitschritte. Die oben beschriebenen Ansätze sind als einzelne exponentielle Glättung bekannt. Da die Prozeduren einmal auf die Zeitreihe angewendet werden und dann Analysen oder Steuerprozesse auf dem resultierenden geglätteten Datensatz durchgeführt werden. Wenn der Datensatz einen Trend enthält unddie saisonalen Komponenten, können zwei - oder dreistufige exponentielle Glättungen angewendet werden, um diese Effekte zu entfernen (explizit modellieren) (siehe weiter unten im Abschnitt "Prognose" und im Beispiel von NIST). CHA1 Chatfield C (1975) Die Analyse der Zeitreihen: Theorie und Praxis. Chapman und Hall, London HUN1 Hunter J S (1986) Der exponentiell gewichtete gleitende Durchschnitt. J von Qualitätstechnologie, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Exponentiell gewichtete gleitende durchschnittliche Kontrollschemata: Eigenschaften und Verbesserungen. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolltests auf der Grundlage geometrischer Bewegungsdurchschnitte. Technometrics, 1, 239 & ndash; 250


No comments:

Post a Comment