Nilai hilang
Terkadang ada nilai yang hilang dalam data deret waktu, dinyatakan sebagai NA di R, dan mengetahui lokasinya dapat berguna. Penting juga untuk mengetahui bagaimana nilai hilang ditangani oleh berbagai fungsi R. Kadang-kadang kita ingin mengabaikan nilai yang hilang, tetapi di lain waktu kita ingin mengimputasi atau mengestimasi nilai yang hilang tersebut.
Mari kita kembali mempertimbangkan himpunan data bulanan AirPassengers, tetapi kini data untuk tahun 1956 hilang. Dalam latihan ini, Anda akan mengeksplorasi implikasi dari data yang hilang ini dan mengimputasi beberapa data baru untuk menyelesaikan masalahnya.
Fungsi mean() menghitung rataan sampel, tetapi akan gagal jika ada nilai NA. Gunakan mean(___, na.rm = TRUE) untuk menghitung rataan dengan semua nilai hilang dihapus. Umumnya, nilai hilang diganti dengan rataan dari nilai yang teramati. Apakah skema imputasi data sederhana ini tampak memadai ketika diterapkan pada himpunan data AirPassengers?
Latihan ini adalah bagian dari kursus
Analisis Deret Waktu dengan R
Petunjuk latihan
- Gunakan
plot()untuk menampilkan plot sederhanaAirPassengers. Perhatikan data yang hilang untuk tahun 1956. - Gunakan
mean()untuk menghitung rataan sampelAirPassengersdengan data hilang dihapus (na.rm = TRUE). - Jalankan kode yang sudah disiapkan untuk mengimputasi nilai rataan ke dalam data yang hilang.
- Lakukan pemanggilan
plot()lagi untuk memplot ulang dataAirPassengersyang baru diimputasi. - Jalankan kode yang sudah disiapkan untuk menambahkan data
AirPassengerslengkap ke plot Anda.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Plot the AirPassengers data
plot(___)
# Compute the mean of AirPassengers
# Impute mean values to NA in AirPassengers
AirPassengers[85:96] <- mean(AirPassengers, na.rm = ___)
# Generate another plot of AirPassengers
# Add the complete AirPassengers data to your plot
rm(AirPassengers)
points(AirPassengers, type = "l", col = 2, lty = 3)