Duplikat penuh
Anda telah diberitahu bahwa ada pembaruan pada pipeline data bike sharing agar lebih efisien, tetapi akibatnya kemungkinan duplikat menjadi lebih tinggi. Agar Anda tetap dapat menggunakan skrip yang sama untuk menjalankan analisis mingguan tentang statistik perjalanan, Anda perlu memastikan bahwa semua duplikat dalam himpunan data dihapus terlebih dahulu.
Ketika beberapa baris dari sebuah data frame memiliki nilai yang sama untuk semua kolom, baris-baris tersebut merupakan duplikat penuh satu sama lain. Menghapus duplikat seperti ini penting, karena pengulangan nilai yang sama berkali-kali dapat mengubah statistik ringkasan seperti mean dan median. Setiap perjalanan, termasuk ride_id-nya, harus unik.
dplyr sudah dimuat dan bike_share_rides tersedia.
Latihan ini adalah bagian dari kursus
Membersihkan Data di R
Petunjuk latihan
- Dapatkan total jumlah duplikat penuh dalam
bike_share_rides. - Hapus semua duplikat penuh dari
bike_share_ridesdan simpan data frame baru sebagaibike_share_rides_unique. - Dapatkan total jumlah duplikat penuh dalam data frame baru
bike_share_rides_unique.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___