Mengagregasi duplikat parsial
Cara lain untuk menangani duplikat parsial adalah menghitung statistik ringkasan dari nilai-nilai yang berbeda antar duplikat parsial, seperti mean, median, maksimum, atau minimum. Ini berguna ketika Anda tidak yakin bagaimana data dikumpulkan dan menginginkan nilai rata-rata, atau jika berdasarkan pengetahuan domain, Anda lebih memilih estimasi yang terlalu tinggi daripada terlalu rendah (atau sebaliknya).
dplyr sudah dimuat dan bike_share_rides tersedia.
Latihan ini adalah bagian dari kursus
Membersihkan Data di R
Petunjuk latihan
- Kelompokkan
bike_share_ridesberdasarkanride_iddandate. - Tambahkan kolom bernama
duration_min_avgyang berisi rata-rata durasi perjalanan untukride_iddandatepada baris tersebut. - Hapus duplikat berdasarkan
ride_iddandate, dengan tetap mempertahankan semua kolom data frame. - Hapus kolom
duration_min.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)