MulaiMulai sekarang secara gratis

Menemukan duplikat

Pembaruan baru pada pipeline data yang memasok ride_sharing telah menambahkan kolom ride_id, yang merepresentasikan pengenal unik untuk setiap perjalanan.

Namun, pembaruan tersebut bertepatan dengan waktu durasi perjalanan rata-rata yang jauh lebih pendek dan tahun lahir pengguna yang tidak wajar karena ditetapkan di masa depan. Yang paling penting, jumlah perjalanan yang dilakukan meningkat 20% dalam semalam, sehingga Anda menduga mungkin ada duplikat lengkap dan tidak lengkap di DataFrame ride_sharing.

Dalam latihan ini, Anda akan mengonfirmasi kecurigaan tersebut dengan menemukan duplikat-duplikat itu. Contoh ride_sharing tersedia di lingkungan Anda, begitu juga semua paket yang telah Anda gunakan sejauh ini.

Latihan ini adalah bagian dari kursus

Membersihkan Data di Python

Lihat Kursus

Petunjuk latihan

  • Temukan baris duplikat ride_id dalam DataFrame ride_sharing sambil mengatur keep ke False.
  • Subset ride_sharing pada duplicates, urutkan berdasarkan ride_id, dan tetapkan hasilnya ke duplicated_rides.
  • Cetak kolom ride_id, duration, dan user_birth_year dari duplicated_rides sesuai urutan tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Edit dan Jalankan Kode