Fehlende Werte
In Zeitreihendaten gibt es manchmal fehlende Werte, in R als NA bezeichnet, und es ist hilfreich, ihre Positionen zu kennen. Es ist außerdem wichtig zu wissen, wie verschiedene R-Funktionen mit fehlenden Werten umgehen. Manchmal wollen wir fehlende Werte ignorieren, in anderen Fällen möchten wir sie imputieren oder schätzen.
Betrachten wir erneut den monatlichen Datensatz AirPassengers, aber diesmal fehlen die Daten für das Jahr 1956. In dieser Übung untersuchst du die Auswirkungen der fehlenden Daten und imputierst neue Werte, um das Problem zu lösen.
Die Funktion mean() berechnet den Stichprobenmittelwert, schlägt aber fehl, wenn NA-Werte vorhanden sind. Verwende mean(___, na.rm = TRUE), um den Mittelwert mit entfernten fehlenden Werten zu berechnen. Es ist üblich, fehlende Werte durch den Mittelwert der beobachteten Werte zu ersetzen. Wirkt dieses einfache Imputationsverfahren angemessen, wenn es auf den AirPassengers-Datensatz angewendet wird?
Diese Übung ist Teil des Kurses
Zeitreihenanalyse in R
Anleitung zur Übung
- Verwende
plot(), um einen einfachen Plot vonAirPassengersanzuzeigen. Achte auf die fehlenden Daten für 1956. - Verwende
mean(), um den Stichprobenmittelwert vonAirPassengersmit entfernten fehlenden Werten zu berechnen (na.rm = TRUE). - Führe den vorgefertigten Code aus, um die fehlenden Daten mit dem Mittelwert zu imputieren.
- Verwende einen weiteren Aufruf von
plot(), um deine neu imputiertenAirPassengers-Daten erneut zu plotten. - Führe den vorgefertigten Code aus, um die vollständigen
AirPassengers-Daten zu deinem Plot hinzuzufügen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Plot the AirPassengers data
plot(___)
# Compute the mean of AirPassengers
# Impute mean values to NA in AirPassengers
AirPassengers[85:96] <- mean(AirPassengers, na.rm = ___)
# Generate another plot of AirPassengers
# Add the complete AirPassengers data to your plot
rm(AirPassengers)
points(AirPassengers, type = "l", col = 2, lty = 3)