Ontbrekende waarden
Soms zitten er ontbrekende waarden in tijdreeksdata, in R aangeduid als NA, en het is handig om te weten waar ze voorkomen. Het is ook belangrijk om te weten hoe verschillende R-functies met ontbrekende waarden omgaan. Soms wil je ontbrekende waarden negeren, maar in andere gevallen wil je ze imputeren of schatten.
Laten we opnieuw de maandelijkse AirPassengers-gegevens bekijken, maar nu ontbreken de data voor het jaar 1956. In deze oefening onderzoek je de gevolgen van deze ontbrekende data en imputeer je nieuwe waarden om het probleem op te lossen.
De functie mean() berekent het steekproefgemiddelde, maar faalt als er NA-waarden aanwezig zijn. Gebruik mean(___, na.rm = TRUE) om het gemiddelde te berekenen met alle ontbrekende waarden verwijderd. Het is gebruikelijk om ontbrekende waarden te vervangen door het gemiddelde van de waargenomen waarden. Lijkt deze eenvoudige imputatiemethode voldoende wanneer je die toepast op de AirPassengers-gegevens?
Deze oefening maakt deel uit van de cursus
Tijdreeksanalyse in R
Oefeninstructies
- Gebruik
plot()om een eenvoudige plot vanAirPassengerste tonen. Let op de ontbrekende data voor 1956. - Gebruik
mean()om het steekproefgemiddelde vanAirPassengerste berekenen met de ontbrekende data verwijderd (na.rm = TRUE). - Voer de vooraf geschreven code uit om de gemiddelde waarden te imputeren op je ontbrekende data.
- Gebruik nog een aanroep van
plot()om je nieuw geïmputeerdeAirPassengers-data opnieuw te plotten. - Voer de vooraf geschreven code uit om de volledige
AirPassengers-data aan je plot toe te voegen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Plot the AirPassengers data
plot(___)
# Compute the mean of AirPassengers
# Impute mean values to NA in AirPassengers
AirPassengers[85:96] <- mean(AirPassengers, na.rm = ___)
# Generate another plot of AirPassengers
# Add the complete AirPassengers data to your plot
rm(AirPassengers)
points(AirPassengers, type = "l", col = 2, lty = 3)