Ringkasan lain tentang keberadaan nilai hilang
Beberapa ringkasan tentang nilai hilang sangat berguna untuk jenis data yang berbeda. Misalnya, miss_var_span() dan miss_var_run().
miss_var_span()menghitung jumlah nilai hilang pada variabel tertentu untuk rentang yang berulang. Ini sangat berguna pada data deret waktu untuk mencari pola nilai hilang mingguan (7 hari).miss_var_run()menghitung jumlah "run" atau "streak" nilai hilang. Ini berguna untuk menemukan pola nilai hilang yang tidak biasa; misalnya, Anda mungkin menemukan pola berulang 5 lengkap dan 5 hilang.
Baik miss_var_span() maupun miss_var_run() dapat digunakan bersama operator group_by dari dplyr.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang di R
Petunjuk latihan
Dengan menggunakan himpunan data pedestrian dari naniar:
- Hitung ringkasan nilai hilang untuk variabel dalam himpunan data menggunakan
miss_var_span()dengan rentang 4000. - Hitung ringkasan nilai hilang untuk kasus dalam himpunan data menggunakan
miss_var_run(). - Gabungkan dengan operator
group_bydari dplyr untukmonth.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate the summaries for each run of missingness for the variable, hourly_counts
miss_var_run(pedestrian, var = ___)
# Calculate the summaries for each span of missingness,
# for a span of 4000, for the variable hourly_counts
miss_var_span(pedestrian, var = ___, span_every = ___)
# For each `month` variable, calculate the run of missingness for hourly_counts
pedestrian %>% group_by(month) %>% ___()
# For each `month` variable, calculate the span of missingness
# of a span of 2000, for the variable hourly_counts
pedestrian %>% group_by(___) %>% ___(var = ___, span_every = ___)