Valores ausentes
A veces hay valores ausentes en series temporales, indicados como NA en R, y es útil saber dónde están. También es importante saber cómo tratan los valores ausentes las distintas funciones de R. A veces puede interesar ignorar la ausencia de datos, pero en otras conviene imputar o estimar los valores faltantes.
Volvamos al conjunto de datos mensual AirPassengers, pero ahora faltan los datos del año 1956. En este ejercicio, explorarás las implicaciones de estos datos ausentes e imputarás algunos valores nuevos para resolver el problema.
La función mean() calcula la media muestral, pero falla si hay algún valor NA. Usa mean(___, na.rm = TRUE) para calcular la media eliminando todos los ausentes. Es habitual sustituir los valores ausentes por la media de los valores observados. ¿Te parece adecuada esta imputación simple cuando se aplica al conjunto AirPassengers?
Este ejercicio forma parte del curso
Análisis de series temporales en R
Instrucciones del ejercicio
- Usa
plot()para mostrar un gráfico sencillo deAirPassengers. Observa que faltan los datos de 1956. - Usa
mean()para calcular la media muestral deAirPassengerseliminando los datos ausentes (na.rm = TRUE). - Ejecuta el código preescrito para imputar los valores medios en los datos que faltan.
- Haz otra llamada a
plot()para volver a representar los datos deAirPassengersya imputados. - Ejecuta el código preescrito para añadir los datos completos de
AirPassengersa tu gráfico.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Plot the AirPassengers data
plot(___)
# Compute the mean of AirPassengers
# Impute mean values to NA in AirPassengers
AirPassengers[85:96] <- mean(AirPassengers, na.rm = ___)
# Generate another plot of AirPassengers
# Add the complete AirPassengers data to your plot
rm(AirPassengers)
points(AirPassengers, type = "l", col = 2, lty = 3)