Menemukan duplikat
Pembaruan baru pada pipeline data yang memasok ride_sharing telah menambahkan kolom ride_id, yang merepresentasikan pengenal unik untuk setiap perjalanan.
Namun, pembaruan tersebut bertepatan dengan waktu durasi perjalanan rata-rata yang jauh lebih pendek dan tahun lahir pengguna yang tidak wajar karena ditetapkan di masa depan. Yang paling penting, jumlah perjalanan yang dilakukan meningkat 20% dalam semalam, sehingga Anda menduga mungkin ada duplikat lengkap dan tidak lengkap di DataFrame ride_sharing.
Dalam latihan ini, Anda akan mengonfirmasi kecurigaan tersebut dengan menemukan duplikat-duplikat itu. Contoh ride_sharing tersedia di lingkungan Anda, begitu juga semua paket yang telah Anda gunakan sejauh ini.
Latihan ini adalah bagian dari kursus
Membersihkan Data di Python
Petunjuk latihan
- Temukan baris duplikat
ride_iddalam DataFrameride_sharingsambil mengaturkeepkeFalse. - Subset
ride_sharingpadaduplicates, urutkan berdasarkanride_id, dan tetapkan hasilnya keduplicated_rides. - Cetak kolom
ride_id,duration, danuser_birth_yeardariduplicated_ridessesuai urutan tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])