MulaiMulai sekarang secara gratis

Mengagregasi duplikat parsial

Cara lain untuk menangani duplikat parsial adalah menghitung statistik ringkasan dari nilai-nilai yang berbeda antar duplikat parsial, seperti mean, median, maksimum, atau minimum. Ini berguna ketika Anda tidak yakin bagaimana data dikumpulkan dan menginginkan nilai rata-rata, atau jika berdasarkan pengetahuan domain, Anda lebih memilih estimasi yang terlalu tinggi daripada terlalu rendah (atau sebaliknya).

dplyr sudah dimuat dan bike_share_rides tersedia.

Latihan ini adalah bagian dari kursus

Membersihkan Data di R

Lihat Kursus

Petunjuk latihan

  • Kelompokkan bike_share_rides berdasarkan ride_id dan date.
  • Tambahkan kolom bernama duration_min_avg yang berisi rata-rata durasi perjalanan untuk ride_id dan date pada baris tersebut.
  • Hapus duplikat berdasarkan ride_id dan date, dengan tetap mempertahankan semua kolom data frame.
  • Hapus kolom duration_min.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Edit dan Jalankan Kode