Sunday 19 November 2017

Autoregressive Moving Average Mit Exogenen Variablen


ARIMA-Modelle mit Regressoren Ein ARIMA-Modell kann als ein spezielles Regressionmodell betrachtet werden, bei dem die abhängige Variable stationarisiert wurde und die unabhängigen Variablen alle Verzögerungen der abhängigen Variablen und / oder Verzögerungen der Fehler sind Um ein ARIMA-Modell zu erweitern, um Informationen, die von führenden Indikatoren und anderen exogenen Variablen bereitgestellt werden, zu integrieren: Sie fügen einfach einen oder mehrere Regressoren zur Prognose-Gleichung hinzu. Alternativ können Sie sich ein hybrides ARIMA-Regressionsmodell als Regressionsmodell vorstellen, das eine Korrektur für autokorrelierte Fehler enthält. Wenn Sie ein multiples Regressionsmodell installiert haben und feststellen, dass seine verbleibenden ACF - und PACF-Diagramme eine identifizierbare autoregressive oder gleitende durchschnittliche quotsignaturequot (z. B. ein signifikantes Muster von Autokorrelationen und oder teilweise Autokorrelationen bei den ersten Verzögerungen und / oder die saisonale Verzögerung) anzeigen Möchten Sie vielleicht das Hinzufügen von ARIMA-Terminen (Verzögerungen der abhängigen Variablen und der Fehler) zum Regressionsmodell berücksichtigen, um die Autokorrelation zu eliminieren und den mittleren quadratischen Fehler weiter zu reduzieren. Um dies zu erreichen, würden Sie das Regressionsmodell einfach als ein ARIMA-Modell mit Regressoren neu anordnen, und Sie würden die entsprechenden AR - und / oder MA-Bedingungen angeben, um das Muster der Autokorrelation, die Sie in den ursprünglichen Residuen beobachtet haben, anzupassen. Die meisten High-End-Prognose-Software bietet eine oder mehrere Optionen für die Kombination der Funktionen von ARIMA und mehrere Regressionsmodelle. Im Forecasting-Verfahren in Statgraphics können Sie dies tun, indem Sie quotARIMAquot als Modelltyp angeben und dann auf die Schaltfläche "QuoteRegressionquot" klicken, um Regressoren hinzuzufügen. (Leider sind Sie auf 5 zusätzliche Regressoren begrenzt.) Wenn Sie einen Regressor zu einem ARIMA-Modell in Statgraphics hinzufügen, fügt es buchstäblich den Regressor auf die rechte Seite der ARIMA-Prognose-Gleichung. Um einen einfachen Fall zu verwenden, nehmen Sie an, dass Sie zuerst ein ARIMA (1,0,1) Modell ohne Regressoren anpassen. Dann ist die von Statgraphics geplante Prognosemethode: die umschreibbar ist als: (Anmerkung: Es handelt sich um eine mathematische Standardform, die häufig für ARIMA-Modelle verwendet wird. Alle Begriffe, die die abhängige Variable - dh alle AR-Begriffe und Differenzen - betreffen, sind Die auf der linken Seite der Gleichung gesammelt werden, während alle Begriffe, die die Erorrs betreffen, dh die MA-Begriffe, auf der rechten Seite gesammelt werden.) Wenn Sie nun ein Regressor X zum Prognosemodell hinzufügen, Gleichung von Statgraphics ist: So wird der AR-Teil des Modells (und auch die differenzierende Transformation, falls vorhanden) auf die X-Variable genau so angewendet, wie sie auf die Y-Variable angewandt wird, bevor X mit der Regression multipliziert wird Koeffizient. Dies bedeutet effektiv, daß das ARIMA (1,0,1) - Modell den Fehlern der Regression von Y auf X (d. H. Der Reihe QY minus & beta; Xquot) angepaßt ist. Wie können Sie feststellen, ob es hilfreich sein könnte, einem ARIMA-Modell einen Regressor hinzuzufügen. Ein Ansatz wäre es, die RESIDUALS des ARIMA-Modells zu speichern und dann auf ihre Kreuzkorrelationen mit anderen möglichen Erklärungsvariablen zu schauen. Zum Beispiel erinnern wir uns, dass wir zuvor ein Regressionsmodell auf saisonbereinigte Autoverkäufe ausgerichtet hatten, in denen sich die LEADIND-Variable (Index von elf führenden Wirtschaftsindikatoren) zusätzlich zu den Verzögerungen der stationären Umsatzvariable als signifikant erwiesen hat. Vielleicht wäre LEADIND auch als Regressor im saisonalen ARIMA-Modell hilfreich, das wir später an Autoverkäufen angepasst haben. Um diese Hypothese zu testen, wurden die RESIDUALS aus dem ARIMA (0,1,1) x (0,1,1) Modell, das an AUTOSALE angepasst wurde, gespeichert. Ihre Kreuzkorrelationen mit DIFF (LOG (LEADIND)), aufgetragen im Verfahren der deskriptiven Methoden, sind wie folgt: (Ein paar kleine technische Punkte, die hier zu beachten sind: Wir haben LEADIND protokolliert und differenziert, um es zu stationarisieren, weil die RESIDUALS der ARIMA - Modell werden auch protokolliert und differenziert - dh ausgedrückt in Einheiten prozentualer Veränderung Auch die Prozedur "Beschreibende Methoden" wie die Prognose-Prozedur mögen keine Variablen, die mit zu vielen fehlenden Werten beginnen, hier die fehlenden Werte am Anfang der RESIDUALS Variablen wurden durch Nullen ersetzt - typisiert in der Hand - vor dem Ausführen des Verfahrens der Beschreibungsmethoden. Eigentlich soll die Prognoseprozedur automatisch Kreuzkorrelationsdiagramme der Residuen gegenüber anderen Variablen zeichnen, aber der Graph, der als " Korrelation Plotquot zeigt nur die Kreuzkorrelationen der Eingangsvariablen gegenüber anderen Variablen an.) Wir sehen, dass die signifikanteste Kreuzkorrelation bei Verzögerung 0 liegt, aber leider können wir das für die Prognose eines Monats nicht verwenden. Stattdessen müssen wir versuchen, die kleineren Kreuzkorrelationen bei den Verzögerungen 1 und 2 auszunutzen. Als ein schneller Test, ob LAGs von DIFF (LOG (LEADIND)) wahrscheinlich unser ARIMA-Modell ergänzen werden, können wir die Multiple Regression verwenden Prozedur, um RESIDUALS auf Verzögerungen von DIFF (LOG (LEADIND)) zurückzusetzen. Hier ist das Ergebnis des Rückgangs von RESIDUALS auf LAG (DIFF (LOG (LEADIND)), 1): Der R-Quadrat-Wert von nur 3,66 deutet darauf hin, dass nicht viel Verbesserung möglich ist. (Wenn zwei Verzögerungen von DIFF (LOG (LEADIND)) verwendet werden, erhöht sich das R-Quadrat nur auf 4,06.) Wenn wir zum ARIMA-Verfahren zurückkehren und LAG (DIFF (LOG (LEADIND)) addieren, 1) als Regressor, Erhalten wir die folgenden Modell-Anpassungsergebnisse: (Kleiner technischer Punkt hier: Wir haben die Werte von LAG (DIFF (LOG (LEADIND)), 1) in einer neuen Spalte, in die beiden fehlenden Werte am Anfang mit Nullen gefüllt, und (LOG (LEADIND)) gleichzeitig mit den anderen Parametern des Modells geschätzt wird, ist es sogar noch bedeutungsloser als im Regressionsmodell für den Fall, dass ein Koeffizient für die Verzögerung von DIFF (LOG (LEADIND) RÜCKSTÄNDE. Die Verbesserung der root-mean-squared Fehler ist einfach zu klein, um spürbar zu sein. Das negative Ergebnis, das wir hier erhalten haben, sollte nicht vermutet werden, dass Regressoren bei ARIMA-Modellen oder anderen Zeitreihenmodellen niemals hilfreich sein werden. Zum Beispiel sind Variablen, die Werbung oder Preisniveaus oder das Auftreten von Werbeaktionen messen, oft hilfreich bei der Erweiterung von ARIMA-Modellen (und exponentiellen Glättungsmodellen) für die Prognose des Umsatzes auf der Ebene der Firma oder des Produkts. Denken Sie daran, dass die hier analysierte Variable - bundesweiter Vertrieb bei Automobilhändlern - eine sehr aggregierte makroökonomische Zeitreihe ist. Wir haben inzwischen gelernt, dass die Auswirkungen auf eine makroökonomische Variable von Ereignissen, die in früheren Perioden aufgetreten sind (z. B. Veränderungen in verschiedenen ökonomischen Faktoren, die den Index der Frühindikatoren bilden) oft am deutlichsten in der Vorgeschichte dieser Variablen selbst dargestellt werden. Folglich können verzögerte Werte anderer makroökonomischer Zeitreihen wenig zu einem Prognosemodell hinzufügen, das die Geschichte der ursprünglichen Zeitreihe bereits vollständig ausgeschöpft hat. Führende ökonomische Indikatoren sind oft sinnvoller, wenn sie so angewandt werden, wie sie beabsichtigt sind - und zwar als Indikatoren für Wendepunkte in Konjunkturzyklen, die sich auf die Richtung längerfristiger Trendprojektionen auswirken können. Der Bedarf an Gesundheitsdiensten ist untragbar geworden . Dies ist vor allem auf die Zunahme der Bevölkerung und der Lebenserwartung, der Eskalationskosten, der erhöhten Patientenerwartungen und der Belegschaft zurückzuführen. Trotz erhöhter Anforderungen ist die Zahl der stationären Betten in Krankenhäusern seit dem letzten Jahrzehnt um 2 gesunken. Ein effizientes Bettenmanagement ist der Schlüssel zur Erfüllung dieser steigenden Nachfrage und der Senkung der Kosten im Gesundheitswesen. Die tägliche Ausstoßrate kann ein potentieller Echtzeitindikator für die betriebliche Effizienz sein 5. Aus einer Stationsebene Sicht, eine gute Schätzung der nächsten Tage Entladungen ermöglichen Krankenhauspersonal, mögliche Probleme wie Änderungen in der Anzahl der verfügbaren Betten und Änderungen in der Anzahl der erforderlichen Mitarbeiter vorzusehen. Effiziente Prognose reduziert Bett Krise und verbessert die Ressourcenzuteilung. Diese Vorhersage kann dazu beitragen, die Entlastungsvorbereitung zu beschleunigen, was enorme Kosten für das klinische Personal und für die Aufklärung von Patienten und Familien bedeutet, die eine Nachentladungsplanung erfordern. 6. 7. Allerdings bietet das Studium Patientenfluss aus allgemeinen Bezirken mehrere Herausforderungen. Ward-Ebene Entladungen enthalten weit größeren Krankenhausdynamik, die oft nichtlineare 8. Der Zugang zu klinischen Informationen in Echtzeit kann aufgrund administrativer und prozeduraler Barrieren schwierig sein, diese Daten sind möglicherweise nicht für prädiktive Anwendungen verfügbar. Da die Diagnosekodierung nach der Entladung durchgeführt wird, gibt es wenig Informationen über den medizinischen Zustand oder die Variation der Pflegequalität in Echtzeit. Darüber hinaus spielen andere Faktoren als der Patientenzustand eine Rolle bei den Entlassungsentscheidungen 5. 9. 10. Die gegenwärtige Praxis der Bettverteilung in den allgemeinen Bezirken der meisten Krankenhäuser umfaßt ein Krankenhauspersonalteam, das vergangene Informationen und Erfahrung benutzt, um Zeitplan und zuweisen Betten 11. Moderne maschinelle Lerntechniken können verwendet werden, um solche Entscheidungen zu unterstützen und helfen, den zugrunde liegenden Prozess zu verstehen. Als Beispiel veranschaulicht Fig. 1 einen Entscheidungsbaum, der auf vergangenen Entladungen trainiert ist, und von Belegungsstatistiken, die das tägliche Entladungsmuster von einer offenen Station in einem regionalen australischen Krankenhaus modellieren. Obwohl die Abwesenheit von Patienten medizinischen Informationen betroffen Prognose Leistung, die Entscheidungsregeln bieten wichtige Einblick in die Entlastung Prozess. Motiviert durch dieses Ergebnis, adressieren wir das offene Problem der Prognose tägliche Entladungen aus einer Station mit keine Echtzeit-klinischen Daten. Im Einzelnen vergleichen wir die Prognoseleistung von 5 populären Regressionsmodellen: (1) der klassische autoregressive integrierte gleitende Durchschnitt (ARIMA), (2) der autoregressive gleitende Durchschnitt mit exogenen Variablen (ARMAX), (3) k-nächster Nachbar (kNN) Regression, (4) Random Forest (RF) Regression und (v) Unterstützung Vektor Regression (SVR). Unsere Experimente wurden auf allgemein verfügbaren Daten von einer Erholungsstation (Heideflügel 5) in Barwon Health, einem regionalen Krankenhaus in Victoria, Australien, durchgeführt. Die Modelle ARIMA und kNN werden aus täglichen Entladungen gebaut. Um den saisonalen Charakter der Einleitungen zu berücksichtigen, umfaßte das ARMAX-Modell den Wochentag und die Belegungsstatistik. Wir identifizierten und konstruierten 20 Station-Ebene und 88 Patienten-Ebene Prädiktoren zur Ableitung der RF-und SVR-Modelle. Die Prognosegenauigkeit wurde unter Verwendung von 3 Metriken auf einem gehaltenen Satz von 2511 Patientenbesuchen im Jahr 2014 gemessen. Im Vergleich zu einer naiven Prognosemethode zur Verwendung des Mittelwerts der vergangenen Wochen zeigen wir durch unsere Experimente, dass (1) mit Regressionsmethoden für (2) SVR - und HF-Modelle übertreffen die autoregressiven Methoden und kNN, (3) ein HF-Modell, das aus 108 Merkmalen abgeleitet ist, hat den minimalen Fehler für die Prognosen des nächsten Tages. Die Bedeutung unserer Studie ist es, die Bedeutung der Vorhersage der verfügbaren Betten in den Stationen zu identifizieren, die dazu beitragen könnten, den Notzugriffsblock 12 zu entlasten. Patient Länge des Aufenthalts direkt zu Krankenhauskosten und Ressourcenallokation beiträgt. Langfristige Prognosen im Gesundheitswesen zielen darauf ab, Betten - und Personalbedarf über einen Zeitraum von Monaten bis Jahren zu modellieren. Cote und Tucker kategorisieren die gemeinsamen Methoden im Gesundheitswesen Nachfrage Prognose als Prozentanpassung, 12-Monats-gleitenden Durchschnitt, Trendlinie und saisonale Prognose 13. Obwohl jede dieser Methoden aus der historischen Nachfrage gebaut wird, liefert die saisonalisierte Prognose realistischere Ergebnisse, da sie die saisonalen Schwankungen und Trends der Daten berücksichtigt. Mackay und Lee 3 beraten die Modellierung des Patientenflusses in Einrichtungen des Gesundheitswesens für taktische und strategische Prognosen. Zu diesem Zweck wurden die Kompartimentmodelle 14, 15, die Warteschlangenmodelle 16, 17 und die Simulationsmodelle 17 bis 20 zur Analyse des Patientenflusses angewandt. Um den langfristigen Patientenfluss zu verstehen, analysieren Studien Metriken wie Bettenbelegung 3. 8. 14. 19. 21. 22, Patientenankünfte 23 und individuelle Patientenverweildauer 19. 24 - 27. Auf der anderen Seite setzt unsere Arbeit kurzfristige Prognosen ein. Die kurzfristigen Prognosemethoden befassen sich mit stündlichen und täglichen Prognosen aus einer Einheit in einem Pflegeumfeld. Die am meisten verbreitete Einheit ist die Notfall - oder Akutmedizinische Abteilung, da dies häufig eine wichtige Kennzahl für die Beurteilung der Versorgungsqualität ist. Entscheidungsbaum Modellierung der Gesamtentladungen aus einer offenen Station von Tag der Woche und Belegung (vorangegangene Besetzung) Daten für 5 Jahre. Die Blätter stellen die Gesamtzahl der Patientenentladungen dar. Zeitreihen und Glättungsmethoden Beim Betrachten von Entladungen als Zeitreihen sind autoregressive gleitende Durchschnittsmodelle die beliebtesten 30 - 32. Exponentielle Glättungstechniken wurden ebenfalls verwendet, um die monatlichen 33 und täglichen Patientenströme 34 zu prognostizieren. Jones und andere verwendeten die klassische ARIMA prognostiziert tägliche Bettbelegung in Notaufnahme eines europäischen Krankenhauses 30. Das Modell, das saisonale Bedingungen enthielt, zeigte eine vernünftige Leistung, um die Bettenbelegung vorherzusagen. Die Autoren spekulierten, ob nicht-lineare Prognosetechniken über ARIMA verbessern könnten. Eine aktuelle Studie bestätigte die Wirksamkeit dieser Prognosetechnik in einer US-Krankenhaus-Einstellung 35. ARIMA-Modelle wurden auch erfolgreich zur Prognose der Anzahl der besetzten Betten während eines SARS-Ausbruchs in einem Krankenhaus in Singapur 36 verwendet. In einer kürzlich durchgeführten Studie wurden Patientendiensten in einer pädiatrischen Notfallabteilung eingesetzt, um den täglichen Bedarf mit ARIMA 37 zu modellieren. Jones et al 34 verglichen die ARIMA-Modus mit exponentiellen Glättung und künstliche neuronale Netze prognostiziert täglich Patientenvolumen in Notfall-Abteilung. Die Studie ergab, dass kein einziges Modell überlegen war, und kam zu dem Schluss, dass saisonale Muster eine große Rolle in der täglichen Nachfrage spielen. Die Modellierung mittels Simulation wird typischerweise verwendet, um das Verhalten komplexer Systeme zu untersuchen. Eine frühe Arbeit untersuchte die Auswirkungen der Notaufnahme auf tägliche Betten Anforderungen in der Akutversorgung, mit diskreten Ereignis stochastische Simulation Modellierung 38. Sinreich und Marmor 39 schlugen einen Leitfaden für den Aufbau eines Simulationswerkzeugs auf der Grundlage von Daten aus Notabteilungen von 5 israelischen Krankenhäusern vor. Ihre Methode analysiert den Fluss der Patienten in 8 Arten zusammen mit Zeit-Elemente gruppiert. Die Simulation zeigte, dass die Patientenprozesse besser durch die Art der Patienten charakterisiert werden, als durch spezielle Krankenhäuser. Yeh und Lin verwendeten ein Simulationsmodell zur Charakterisierung des Patientenflusses durch eine Krankenhaus-Notfallabteilung und reduzierte Wartezeiten unter Verwendung eines genetischen Algorithmus 40. Ein ähnliches Experiment wurde in einer geriatrischen Abteilung unter Verwendung einer Kombination von diskreter Ereignissimulation und Warteschlangenmodell durchgeführt, um die Bettenbelegung zu analysieren. Regression für Forecasting Regressionsmodelle analysieren die Beziehung zwischen der prognostizierten Variablen und den Merkmalen in den Daten. Eine lineare Regression, die monatliche Variationen kodierte, wurde verwendet, um Patienteneintritte über einen 6-Monatshorizont zu prognostizieren und übertrafen quadratische und autoregressive Modelle 41. Eine weitere Studie verwendet Clustering und Principle Component Analysis PCA, um signifikante Prädiktoren aus Patientendaten zu Modell Notfall Länge des Aufenthalts mit linearen Regression 42 zu finden. Ein nichtlinearer Ansatz unter Verwendung von Regressionsbäumen wurde bei der Prognose von Patienteneinträgen vorgeschlagen, die eine überlegene Leistungsfähigkeit über ein neuronales Netzraument zeigen. Barnes et al verwendeten 10 Prädiktoren zur Modellierung der intravenösen Aufenthaltsdauer in einer 36-Betten-Einheit unter Verwendung eines HF-Modells 24. Die nichtlineare Regression ist besser geeignet, die sich verändernde Dynamik des Patientenflusses zu modellieren. Um den Abfluss von Patienten aus der Station zu charakterisieren, greifen wir auf Regression mit RF, kNN und SVR zurück. Im Bereich der Mustererkennung sind kNNs 44 die effektivste Methode, die wiederholte Muster ausnutzt. Der kNN-Algorithmus wurde erfolgreich zur Prognose auf Histogramm-Zeitreihen in den Finanzdaten 45 angewendet. Die nichtparametrische Regression unter Verwendung von kNN wurde erfolgreich für die kurzfristige Verkehrsprognose 46 gezeigt. 47 und die Stromlastvorhersage 48. 49. Jedoch wurde die kNN-Regression nicht für den Patientenfluss untersucht. Eine weitere leistungsfähige und populäre Regressionstechnik, SVR, verwendet Kernelfunktionen, um Funktionen in einen höherdimensionalen Raum abzubilden, um eine lineare Regression durchzuführen. Obwohl diese Technik nicht viel Anwendung in der medizinischen Prognose gesehen hat, haben Support-Vektor-Maschinen erfolgreich in der Finanzmarkt-Vorhersage, Stromvorhersage, Business-Prognose und Zuverlässigkeit Vorhersage 50. Abgesehen von den üblichen autoregressiven Methoden, verwenden wir kNN, RFs und SVR bei der Prognose des nächsten Tages Entladungen. Da sich die Entladungsmuster im Laufe der Zeit wiederholen, kann die kNN-Regression angewandt werden, um nach einem passenden Muster aus vergangenen Entladungen zu suchen. RFs und SVR-Regression sind leistungsfähige Modellierungstechniken, die eine minimale Abstimmung erfordern, um die Nichtlinearität in den Krankenhausprozessen effektiv zu behandeln. Vor kurzem wurde eine HF-Prognose verwendet, um die Gesamtentleerung eines Patienten aus einer 36-Bett-Einheit in einem städtischen Krankenhaus 24 vorherzusagen. Diese Studie verwendete neben 4 demographischen und 2 zeitlichen Vorhersagen drei klinische Prädiktoren für Patienten: (1) Anlass zur Besichtigung: von einem Arzt identifiziert und unter Verwendung der Internationalen Klassifikation der Krankheiten: Version 9 (ICD-9) Diagnosecodes 51, (2 ) Beobachtungsstatus: Patienten zugeordnet für die Überwachung Zweck, und (3) bis zur Entlastung Ort. Die Gesamtzahl der Einleitungen wurde aus der Gesamtheit der individuellen Patientenaufenthalte geschätzt. Das Fehlen von Echtzeit-klinischen Informationen in unseren Daten macht die Berechnung der Patienten Länge des Aufenthalts unmöglich. Stattdessen greifen wir auf die Modellierung der Entladungen am nächsten Tag zurück, indem wir vorhergehende Entladungsmuster beobachten und die demographischen und fliessenden Eigenschaften in der Station untersuchen. Unsere Studie verwendet retrospektive Daten gesammelt aus einer Erholungsstation in Barwon Health, einem großen öffentlichen Gesundheits-Anbieter in Victoria, Australien mit etwa 350.000 Einwohnern. Ethik Genehmigung wurde von der Krankenhaus-und Research Ethics Committee bei Barwon Health (Nummer 12 83) und Deakin University. Die Gesamtzahl der verfügbaren Betten hängt von der Anzahl der Mitarbeiter ab, die der Station zugeordnet sind. Im Durchschnitt hatte die Station 36 Betten, aber schwankte zwischen 20 und 80 Betten mit unterschiedlichem Patientenfluss. Die Ärzte in der Gemeinde hatten keine Lehrverantwortung. Tabellen in der Krankenhaus-Datenbank verwendet in unserer Datenerhebung. Ein IQR, interquartile Bereich. Die Daten für unsere Studie kamen aus drei Tabellen in der Krankenhaus-Datenbank, wie in Tabelle 1 gezeigt. Zusätzliche Echtzeit-Daten, die Patientenkondition oder Krankheitsprogression beschrieben wurden nicht verfügbar, da Diagnose-Codierung mit medizinischen Codes nach Entladung erfolgt. Der Patientendurchfluss wurde für einen Zeitraum von 4 Jahren gesammelt. Unter Verwendung der Eintritts - und Entladezeiten für jeden Patienten, berechneten wir die täglichen Entladungen aus unserer Station in der Studie. Insgesamt wurden 12.141 Patienten mit einer medianen Entlassung von 8 Patienten pro Tag vom 1. Januar 2010 bis zum 31. Dezember 2014 in die Station aufgenommen. Tabelle 2 fasst die Hauptmerkmale unserer Daten zusammen. Eine Zeitreihenzerlegung unserer Daten zeigte starke saisonale Schwankungen und eine hohe Nichtlinearität bei den täglichen Entladungsmustern. Es gab eine definierte wöchentliche Musterentladung aus der Station erreichte am Freitag und sank deutlich am Wochenende (siehe Abbildung 2). Diese Saisonalität steht im Einklang mit früheren Studien 9. 32. Die Aggregation der täglichen Einleitungen in eine monatliche Zeitreihe ergab definierte monatliche Muster (siehe Abbildung 3). Die Daten zeigten keinen signifikanten Trend. Zusätzlich zeigte sich, daß das tägliche Entladungsmuster höchst nichtlinear war. Unsere Prognosemethoden müssen in der Lage sein, diese Datendynamik zu bewältigen. (1) ARIMA, (2) autoregressive Bewegung, (3) Prognose unter Verwendung von kNN-Entladungsmustern, (4) RF und (5) SVR. Autoregressive Methoden modellieren die zeitliche lineare Korrelation zwischen benachbarten Datenpunkten in der Zeitreihe. Nächste Muster heben diese Linearitätsannahme an und nehmen an, dass kurze Perioden wiederholte Muster bilden. Schließlich suchen RF und SVR eine nichtlineare funktionale Beziehung zwischen den zukünftigen Ergebnissen und Deskriptoren in der Vergangenheit. Mittlere Aufnahmen und Entladungen pro Tag aus der Station. Zeitreihen der monatlichen Einleitungen aus der Station. Vorhersageverfahren Autoregressive Integrierte Moving Average Zeitreihen-Prognosemethoden können das Muster vergangener Entladungen analysieren und ein Prognosemodell aus zugrunde liegenden zeitlichen Beziehungen formulieren 52. Solche Modelle können dann verwendet werden, um die Entladezeitreihen in die Zukunft zu extrapolieren. ARIMA-Modelle sind weit verbreitet in der Zeitreihen-Prognose eingesetzt. Ihre Popularität lässt sich auf die Einfachheit der Modellformulierung und Interpretierbarkeit zurückführen. ARIMA-Modelle suchen nach linearen Beziehungen in der Entladesequenz, um lokale Trends und Saisonalität zu erkennen. Allerdings können solche Beziehungen im Laufe der Zeit ändern. ARIMA-Modelle können diese Änderungen erfassen und entsprechend aktualisieren. Dies geschieht durch Kombination von autoregressiven (AR) und gleitenden Durchschnittsmodellen (MA). Autoregressive Modelle formulieren Entladung zum Zeitpunkt t y t. Als lineare Kombination früherer Entladungen. Auf der anderen Seite charakterisieren sich gleitende Durchschnittsmodelle als lineare Kombination früherer Prognosefehler. Für das ARIMA-Modell wird die Entladezeitreihe durch Differenzierung stationär hergestellt. Lassen Sie autoregressive Parameter, bewegte Durchschnittsparameter sein und die Prognosefehler sein. Ein solches ARIMA-Modell kann wie in Fig. 4 definiert definiert werden, wobei eine Konstante ist. Durch Variation von p und q. Können wir verschiedene Modelle zu den Daten passen. Box-Jenkins-Methode 54 liefert einen klar definierten Ansatz zur Modellidentifikation und Parameterschätzung. In unserer Arbeit wählen wir die Auto. arima () - Funktion aus dem Prognosepaket 55 in R 56, um automatisch das beste Modell auszuwählen. Klassisches ARIMA-Modell. Autoregressive Moving Average mit exogenen Variablen (ARMAX) Dynamische Regression Techniken ermöglichen das Hinzufügen zusätzlicher erklärender Variablen, wie Tag der Woche und Anzahl der aktuellen Patienten in der Station, um autoregressive Modelle. Das autoregressive Bewegen ARMAX modifiziert das ARIMA-Modell, indem es die externe Variable x t zur Zeit t einschließt. Wie in Abbildung 5 gezeigt. Wir modellieren x t mit Funktionen aus der Krankenhaus-Datenbank. ARIMA-Modell mit exogener Variable xt. Erkennen von Entladungsmustern unter Verwendung von k-Nearest Neighbours Der kNN-Algorithmus nutzt die Lokalität im Datenraum. Wir gehen davon aus, dass die Entladung am nächsten Tag von den Einleitungen in den vergangenen Tagen abhängt. Mit kNN Prinzipien können wir eine Regression zur Prognose der Entladung am nächsten Tag durchführen. Es sei y d die Anzahl der Entladungen am aktuellen Tag: d. Zur Prognose des nächsten Tages Entladung: y d1. Betrachten wir die Entladungen in den letzten p Tagen als: entladen y d-p. Y d. Unter Verwendung der euklidischen Entfernungsmetrik finden wir k engste Übereinstimmungen zu entladen aus den Trainingsdaten. Schätzung der Entladung am nächsten Tag: d1. Wird als Maß für die Entladungen am nächsten Tag der k angepaßten Muster berechnet: (y Übereinstimmung) i i (1: k). Abbildung 6 zeigt ein Beispiel einer kNN-basierten Prognose. Hier, Entladung in rot y d-7. Y d Ergebnisse in 3 Übereinstimmungen aus den Trainingsdaten. Zur Vereinfachung haben wir die abgestimmten Muster neben der Entladung aufgetragen, obwohl sie in der Vergangenheit aufgetreten waren. Die nächste Prognose d1 wird ein Maß für (y match) i. Wobei (y Übereinstimmung) i i (1: 3) der (d 1) - te Term von jedem der angepassten Muster 57 ist. Eine beliebte Methode zur Berechnung von d1 ist die Minimierung des gewichteten quadratischen Verlustes (Abbildung 7), wobei w i Werte zwischen 0 und 1 mit k i1 w i 1 annimmt. Allerdings gibt es zwei Hauptnachteile, die es weniger wünschenswert für unsere Daten. Erstens ist der quadratische Verlust empfindlich gegenüber Ausreißern. Zweitens wird eine robuste Abschätzung von i schwierig. Unsere Daten enthalten erhebliches Rauschen, was zu großen Schwankungen bei den Prognosen des nächsten Tages der k angepassten Muster führt. Wir veranschaulichen dieses Problem in Abbildung 8. Für einen gegebenen Tag gibt die kNN-Regression 125 abgestimmte Muster zurück. Die Prognosen des nächsten Tages aus jedem k125-Muster zeigten signifikante Unterschiede. In einem solchen Szenario schätzen wir t1 ein, indem wir den robusten Verlust minimieren (Abbildung 9). K-nächsten Nachbarprognosebeispiel mit k3 und P 7. Berechnung von d1 durch Minimierung des gewichteten quadratischen Verlustes. Scatterplot der nächsten Prognose mit k-nächsten Nachbarn für einen bestimmten Tag. Die X-Achse repräsentiert jedes abgestimmte Nachbarmuster. Die Y-Achse stellt die nächste Prognose des abgestimmten Musters dar. Abschätzen von t1 durch Minimierung des robusten Verlustes. Bei diesem Ansatz nehmen wir die Entladung am nächsten Tag als Funktion des historischen Deskriptorvektors an: x. Wir verwenden jeden Tag in der Vergangenheit als Datenpunkt, wo die Entladung am nächsten Tag das Ergebnis ist, und die kurze Zeit vor der Entladung werden verwendet, um Deskriptoren abzuleiten. Die in diesem Papier verwendete HF ist derzeit eine der mächtigsten Methoden, um die Funktion y f (x) 58 zu modellieren. Ein RF ist ein Ensemble von Regressionsbäumen. Ein Regressionsbaum approximiert eine Funktion f (x), indem der Deskriptorraum rekursiv partitioniert wird. In jedem Bereich Rp. Wird die Funktion angenähert, wie in Fig. 10 gezeigt ist, wobei 124 Rp 124 die Anzahl der Datenpunkte ist, die in den Bereich Rp fallen. Die RF erzeugt eine vielfältige Sammlung von zufälligen Bäumen durch Variieren der Teilmengen von Datenpunkten, um die Bäume und die Teilmengen der Deskriptoren bei jedem Schritt der Raumpartitionierung zu schulen. Das Ergebnis der RF ist ein Durchschnitt aller Bäume im Ensemble. Da der Baumwachstum ein hochadaptiver Prozess ist, kann er jede nichtlineare Funktion in einem beliebigen Grad der Annäherung entdecken, wenn er genügend Trainingsdaten erhält. Allerdings macht die Flexibilität Regression Baum anfällig für Overfitting, das heißt, die Unfähigkeit zu verallgemeinern, um unsichtbare Daten. Dies erfordert das Steuern des Wachstums, indem die Anzahl der Deskriptoren pro Partitionierungsschritt und die minimale Größe des Bereichs R p eingestellt werden. Die Abstimmung führt zu großen Vorteilen: Reduzieren Sie die Variationen pro Baum. Die Zufälligkeit hilft gegen Überbeulen zu bekämpfen. Es gibt keine Annahme über die Verteilung der Daten oder die Form der Funktion (x). Es gibt kontrollierbare Qualität der Sitze. Random Wälder Formulierung der nächsten Tage Entladungen (y) aus historischen Deskriptoren (x). Stützvektorregression Der im RF-Modell verwendete historische Deskriptorvektor x kann auch verwendet werden, um ein SVR-Modell 60 zu erstellen. Angesichts der Menge der Daten 1. Y 1), (x 2 y 2), wobei x i R m den Eingabebeschreiber für die entsprechende nächste Tagesprognose y i R 1 bezeichnet. Eine Regressionsfunktion nimmt die Form an: i f (x i). SVR arbeitet durch (1) Zuordnen des Eingangsraums von x i in einen höherdimensionalen Raum unter Verwendung einer nichtlinearen Abbildungsfunktion:. (2) Durchführen einer linearen Regression in diesem höherdimensionalen Raum. Im allgemeinen können wir die Regressionsfunktion als: f (x) (w (x)) b ausdrücken, wobei w R m die Gewichte und b R 1 der Biasterm ist. Vapnik 60 schlug die & ndash; unempfindliche Verlustfunktion für SVR vor, die die Form annimmt, wie in Gleichung 1 in Fig. 11 gezeigt. Die Verlustfunktion L toleriert Fehler, die kleiner als die Schwelle sind, was zu einem Rohr um die wahren Entladungswerte führt. Modellparameter können durch Minimieren der Kostenfunktion, wie in Gleichung 2 in Fig. 11 gezeigt, abgeschätzt werden, wobei C eine Konstante ist, die einen Fehler beim Trainieren von Daten benachteiligt. In unserer Arbeit verwenden wir einen RBF-Kernel 61, um unsere Eingabedaten in höher dimensionierte Merkmalsräume abzubilden. RBF-Kerne sind eine gute Wahl, um unser nichtlineares Entladungsmuster anzupassen, weil es möglich ist, die Trainingsdaten auf einen unendlich dimensionalen Raum und eine einfache Implementierung abzubilden. Die Lösung der doppelten Formulierung der SVR-Kostenfunktion ist in 60 dargestellt. Das SVR-Lernmodell. Wir haben alle Daten aus den Datenbanktabellen (wie in Tabelle 1) für unsere Station entnommen. Der Patientendurchfluss wurde für einen Zeitraum von 5 Jahren analysiert. Wir haben unsere Daten als Matrix formatiert, wobei jede Zeile einem Tag entspricht und jede Spalte ein Merkmal (Deskriptor) darstellt. Es wurden zwei Hauptgruppen von Merkmalen identifiziert: (1) Stationsebene und (2) Patientenebene. Unser Merkmalserstellungsprozess führte zu 20 stationären und 88 Patienten-Level-Prädiktoren, wie in Tabelle 3 aufgelistet. Der Ward-Level-Deskriptor: Trend der Entladung am nächsten Tag wurde durch Anpassen einer lokal gewichteten Polynomregression 63 aus früheren Entladungen berechnet. Ein Beispiel für diese Regressionsanpassung ist in gezeigt. Merkmale aus Stationsdaten in der Krankenhausdatenbank. A a Der Zufallswald und die Unterstützungsvektorregressionsmodelle verwendeten den vollen Satz von Merkmalen. Die ARMAX (autoregressive gleitende Durchschnitt mit exogenen Variablen) Modell verwendet Saisonalität und Belegung. Alle anderen Modelle wurden aus täglichen Entladungen abgeleitet. Ein Beispiel für den Entladungstrend, wie er sich aus einem lokal gewichteten polynomischen Regressionsmodell ergibt. Unsere Trainings - und Testsets sind zeitlich getrennt. Diese Strategie spiegelt die gängige Praxis der Ausbildung des Modells mit Daten in der Vergangenheit und Anwendung auf zukünftige Daten. Die Trainingsdaten betrugen 1460 Tage vom 1. Januar 2010 bis zum 31. Dezember 2013. Die Testdaten bestanden aus 365 Tagen im Jahr 2014. Die Charakteristika der Trainings - und Validierungskohorte sind in Tabelle 4 dargestellt. Die meisten Aufenthalte waren kurz, rund 65 Jahre Der Patienten für weniger als 5 Tage. Merkmale von Trainings - und Validierungskohorten. Die gegenwärtige Krankenhausstrategie beinhaltet die Verwendung von Erfahrungen aus der Vergangenheit, um verfügbare Betten vorzusehen. Um die Effizienz unserer vorgeschlagenen Ansätze zu vergleichen, modellieren wir die folgenden Basislinien: (1) Naive Prognose mit dem letzten Tag der Entladung: Da unsere Daten wöchentliche Definitionen haben, modellieren wir die Entladung am nächsten Tag als Anzahl der Entladungen (2) naive Prognose mit Mittelwerten der letzten Woche: Um die Variation und den Lärm in wöchentlichen Entladungen besser zu modellieren, modellieren wir die Entladung am nächsten Tag als Mittelwert der Einleitungen während der vergangenen 7 Tage und (3) Naive Prognose mit Mittelwert der letzten 3-Wochen-Entladungen: Um die monatlichen und wöchentlichen Veränderungen in unseren Daten zu berücksichtigen, verwenden wir Mittel der täglichen Entladungen in den letzten 3 Wochen, um die Entladung am nächsten Tag zu modellieren. Messung der Prognoseleistung Wir vergleichen die Prognosen für die nächsten Tage unserer vorgeschlagenen Ansätze mit den Baseline-Methoden auf den Maßnahmen des mittleren Prognosefehlers, des mittleren Absolutfehlers, des symmetrischen mittleren absoluten Prozentfehlers und des quadratischen Mittelwertes 64. 65. Wenn y t die gemessene Entladung zum Zeitpunkt t ist. F t die prognostizierte Dishcharge zum Zeitpunkt t ist. Können wir Folgendes definieren: Mittelwertprognosefehler (MFE): wird verwendet, um Modellvorspannung zu messen, und wird als MFE-Mittelwert (yt - ft) berechnet. Für ein ideales Modell, MFE 0. Wenn MFE 62 0, tendiert das Modell zu einer Unterprognose. Wenn MFE 60 0, tendiert das Modell dazu, eine Vorhersage durchzuführen. Mittlerer absoluter Fehler (MAE): Der Mittelwert der unsigned Fehler: MAE mean124 y t - f t 124. MAE gibt die absolute Größe der Fehler an. Root mean square error (RMSE) ist ein Maß für die Abweichung von Prognosefehlern. Sie wird berechnet als: RMSE-Mittelwert (yt - ft) 2 Aufgrund der Quadrierung und der Mittelung neigen große Fehler dazu, mehr Einfluss auf RMSE zu haben. Im Gegensatz dazu werden einzelne Fehler gleichmäßig in MAE gewichtet. Es gab viel Diskussion über die Wahl der MAE oder RMSE als Indikator für die Modellleistung 66. 67. Symmetrischer mittlerer absoluter Prozentsatzfehler (sMAPE): Er ist skalenunabhängig und kann daher verwendet werden, um die Prognoseleistung zwischen verschiedenen Datenreihen zu vergleichen. It overcomes 2 disadvantages of mean absolute percentage error (MAPE) namely, (1) the inability to calculate error when the true discharge is zero and (2) heavier penalties for positive errors than negative errors. sMAPE is a more robust estimate of forecast error and is calculated as: sMAPE mean(200124 y t - f t 124 y t f t ). However, sMAPE ranges from 200 to 200, giving it an ambiguous interpretation 68 . Results Model Performance In this section, we describe the results of comparing our different forecasting methods. The model parameters for kNN forecast, RF, and SVR models were tuned to minimize forecast errors. For kNN regression, the optimum value of pattern length: d and number of nearest neighbours: k. was obtained by analyzing forecast RMSE for values d (1,100) and k (5,1000). Minimum RMSE of 3.77 was obtained at d 70 and k 125. The SVR parameters C (penalty cost) and (amount of allowed error) were determined by choosing the best value from a grid search, that minimized the model RMSE. Similarly, the optimum number of variables in building each node of the RF was chosen by examining its effect on minimizing the out-of-bag estimate. We compared the naive forecasting methods with our proposed 5 models using MFE, MAE, RMSE, and sMAPE. The results are summarized in Table 5. whereas Figure 13 compares the distribution of actual discharges with different model forecasts. Forecast accuracy of different models. a ARIMA: autoregressive integrated moving average b ARMAX: autoregressive moving average with exogenous variables The naive forecasts are unable to capture all variations in the data and resulted in the maximum error when compared with other models. The variations in seasonality and trend are better captured in ARIMA and ARMAX models. The time series consisting of past 3-month discharges were used to generate the next-day discharge forecast. The ARMAX model also included the day of week and ward occupancy as exogenous variables, which resulted in better forecast performance over ARIMA. Interestingly, kNN was more successful than ARIMA and ARMAX in capturing the variations in discharge, demonstrating about 3 improvement in MAE, when compared with ARMAX. However, the kNN model tends to under forecast (MFE 1.09), possibly because of resorting to median values for forecast. In comparison, RF and SVR forecast models demonstrated better performance. This can be expected because they are derived from all the 108 features. However, RF demonstrated a relative improvement of 3.3 in MAE over SVR model (see Table 5 ). When looking at forecast errors for each day of week, RF model confirmed better performance, as shown in Figure 14 . The process of SVR with RBF kernel maps all data into a higher dimensional space. Hence, the original features responsible for forecast cannot be recovered, and the model acts as a black box. Alternatively, RF algorithm returns an estimate of importance for each variable for regression. Examining the features with high importance could give us a better understanding of the discharge process. Comparison of actual and forecasted discharges from ward for each day in 2014. Forecast error in predicting each day of week in 2014. Feature Importance in the Random Forest model The features in random forecast model were ranked on importance scores. The top 10 significant features are described as follows. The day of week for the forecast proved to be the most important feature. Other features were number of patients in the ward during the day of forecast, the trend of discharges measured using locally weighted polynomial regression, number of discharges in past 14th day, number of discharges in past 21st day, number of patients who had visited only one previous ward, the number of males in the ward, number of patients labelled as: public standard, and current month of forecast. Discussion Principal Findings Improved patient flow and efficient bed management is key to counter escalating service and economic pressures in hospitals. Predicting next-day discharges is crucial but has been seldom studied for general wards. When compared with emergency and acute care wards, predicting next-day discharges from a general ward is more challenging because of the nonavailability of real-time clinical information. The daily discharge pattern is seasonal and irregular. This could be attributed to management of hospital processes such as ward rounds, inpatient tests, and medication. The nonlinear nature of these processes contributes to unpredictable length of stay even in patients with similar diagnosis. Typically, for open wards, a floor manager uses previous experience to foresee the number of available beds. In this paper, we attempt to model total number of next-day discharges using 5 methods. We have compared the forecasting performance using MAE, RMSE, and sMAPE. Our predictors are extracted from commonly available data in the hospital database. Although the kNN method is simple to implement, requiring no special expertise, software packages for other models are available for all common platforms. These models can be implemented by the analytics staff in hospital IT department and can be easily integrated into existing health information systems. In our experiments, forecast based on RF model outperformed all other models. Forecasting error rate is 31.9 (as measured by sMAPE) which is in the same ballpark as the recent work of 24 , though we had no real-time clinical information. An RF model makes minimum assumptions about the underlying data. Hence, it is the most flexible, and at the same time, comes with great overfitting control. Similarly, SVR also demonstrated superior performance, compared with the autoregressive and kNN models. The RBF kernel maps the features into a higher dimensional space during the regression process. Hence, the physical meaning of the features is lost, making it difficult to interpret the model. Finally, RFs and SVR are able to handle more features. This extra information in the form of patient demographics and past admission and discharge statistics contributed to improve the predictive performance when compared with other models. The kNN regression also performed well as it assumes only the locality in the data. But it is not adaptive, and thus less flexible in capturing complex patterns. The kNN regression assumes similar patterns in past discharges extrapolate to similar future discharge, which is not true for daily discharges from ward. ARMAX model outperformed the traditional ARIMA forecasts since it incorporated seasonal information as external regressors. As expected, a naive forecast of using the median of past discharges performed worst. We noticed a weekly pattern ( Figure 2 ) and monthly pattern ( Figure 3 ) in discharges from the ward. Other studies have also confirmed that discharges peak on Friday and drop during weekends 5. 9. 10 . This weekend effect could be attributed to shortages in staffing or reduced availability of services like sophisticated tests and procedures 10. 69 . This suggests discharges are heavily influenced by administrative reasons and staffing. Feature importance score from an RF model helps in identifying the features contributing to the regression process. The day of forecast proved to be one of the most important features in the RF model. Other important features included trend based on nonlinear regression of past weekdays, number of discharges in the past days, ward occupancy in previous day, number of males in the ward, and number of general patients in ward. When looking at for each day of the week, the RF and SVR model consistently outperformed other models. Sundays and Thursdays proved to be the easiest to predict for all models ( Figure 14 ). This can be expected since these days had the least variation in our data. Fridays proved to be the most difficult to forecast. Retraining the RF model by omitting day of the week increased the forecast error by 1.39 (as measured by sMAPE). Patient length of stay is inherently variable, partly due to the complex nonlinear structure of medical care 8 . The number of discharges from a ward is strongly related to the length of stay of the current patients in the ward. Hence, the variability in ward-level discharges is compounded by the variability in individual patient length of stay. In our study, the daily discharge pattern from ward shows great variation for each day of week. Apart from patient level details, we believe that a knowledge of hospital policies is also required to capture such nonlinearity. In our study, we were able to validate that the weekend patterns affect discharges from a general ward. The RF model was able to give a reasonable estimate of number of next-day discharges from the ward. Clinical staff can use this information as an aid to decisions regarding staffing and resource utilization. This foresight can also aid discharge planning such as communication and patient transfer between wards or between hospitals. An estimate of number of free beds can also help reduce emergency department (ED) boarding time and improve patient flow 12. 23 . ED boarding time is the time spent by a patient in emergency care when a bed is not available in the ward. ED boarding time severely reduces the hospital efficiency. High bed occupancy in ward directly contributes to ED overcrowding 70 . In our data, 42.81 of patients were admitted from the emergency care. An estimate of daily forecasts can be helpful in deciding the number of beds in wards to ease patient flow. We acknowledge the following limitations in our study. First, we focused only on a single ward. However, it was a ward with different patient types, and hence the results could be an indication for all general wards. Second, we did not use patient clinical data to model discharges. This was because clinical diagnosis data were available only for 42.81 of patients who came from emergency. In a general ward, clinical coding is not done in real time. However, we believe that incorporating clinical information to model patient length of stay could improve forecasting performance. Third, we did not compare our forecasts with clinicians managing nurses. Finally, our study is retrospective. However, we have selected prediction period separated from development period. This has eliminated possible leakage and optimism. This study set out to model patient outflow from an open ward with no real-time clinical information. We have demonstrated that using patient-level and ward-level features in modelling forecasts outperforms the traditional autoregressive methods. Our proposed models are built from commonly available data and hence could be easily extended to other wards. By supplementing patient-level clinical information when available, we believe that the forecasting accuracy of our models can be further improved.

No comments:

Post a Comment