IniziaInizia gratis

Valori mancanti

A volte nelle serie temporali ci sono valori mancanti, indicati con NA in R, ed è utile conoscerne la posizione. È anche importante sapere come i vari metodi di R gestiscono i valori mancanti. A volte possiamo volerli ignorare, ma in altri casi potremmo voler imputare o stimare i valori mancanti.

Consideriamo di nuovo il dataset mensile AirPassengers, ma ora mancano i dati per l’anno 1956. In questo esercizio esplorerai le implicazioni di questi dati mancanti e imputerai nuovi valori per risolvere il problema.

La funzione mean() calcola la media campionaria, ma fallisce in presenza di qualsiasi NA. Usa mean(___, na.rm = TRUE) per calcolare la media rimuovendo tutti i valori mancanti. È prassi comune sostituire i valori mancanti con la media dei valori osservati. Questo semplice schema di imputazione dei dati ti sembra adeguato quando lo applichi al dataset AirPassengers?

Questo esercizio fa parte del corso

Analisi delle serie temporali in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usa plot() per visualizzare un semplice grafico di AirPassengers. Nota i dati mancanti per il 1956.
  • Usa mean() per calcolare la media campionaria di AirPassengers rimuovendo i dati mancanti (na.rm = TRUE).
  • Esegui il codice già scritto per imputare i valori medi nei dati mancanti.
  • Usa un’altra chiamata a plot() per ridisegnare i dati di AirPassengers appena imputati.
  • Esegui il codice già scritto per aggiungere al grafico i dati completi di AirPassengers.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Plot the AirPassengers data
plot(___)

# Compute the mean of AirPassengers


# Impute mean values to NA in AirPassengers
AirPassengers[85:96] <- mean(AirPassengers, na.rm = ___)

# Generate another plot of AirPassengers


# Add the complete AirPassengers data to your plot
rm(AirPassengers)
points(AirPassengers, type = "l", col = 2, lty = 3)
Modifica ed esegui il codice