Menemukan duplikat

Pembaruan baru pada pipeline data yang memasok ride_sharing telah menambahkan kolom ride_id, yang merepresentasikan pengenal unik untuk setiap perjalanan.

Namun, pembaruan tersebut bertepatan dengan waktu durasi perjalanan rata-rata yang jauh lebih pendek dan tahun lahir pengguna yang tidak wajar karena ditetapkan di masa depan. Yang paling penting, jumlah perjalanan yang dilakukan meningkat 20% dalam semalam, sehingga Anda menduga mungkin ada duplikat lengkap dan tidak lengkap di DataFrame ride_sharing.

Dalam latihan ini, Anda akan mengonfirmasi kecurigaan tersebut dengan menemukan duplikat-duplikat itu. Contoh ride_sharing tersedia di lingkungan Anda, begitu juga semua paket yang telah Anda gunakan sejauh ini.

Latihan ini merupakan bagian dari kursus

Membersihkan Data di Python

Instruksi latihan

Temukan baris duplikat ride_id dalam DataFrame ride_sharing sambil mengatur keep ke False.
Subset ride_sharing pada duplicates, urutkan berdasarkan ride_id, dan tetapkan hasilnya ke duplicated_rides.
Cetak kolom ride_id, duration, dan user_birth_year dari duplicated_rides sesuai urutan tersebut.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Membersihkan Data di Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data masa depan, dan menghapus duplikasi titik data untuk menghindari penghitungan ganda.

Exercise 1: Kendala tipe data Exercise 2: Tipe data umum Exercise 3: Data numerik atau ... ?Exercise 4: Menjumlahkan string dan menggabungkan angka Exercise 5: Kendala rentang data Exercise 6: Kendala ukuran ban Exercise 7: Kembali ke masa depan Exercise 8: Kendala keunikan Exercise 9: Seberapa besar subset Anda?Exercise 10: Menemukan duplikat

Latihan Saat Ini

Exercise 11: Menangani duplikasi

Data kategorikal dan teks sering kali menjadi bagian yang paling berantakan dalam suatu himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.

Exercise 1: Kendala keanggotaan Exercise 2: Khusus anggota Exercise 3: Menemukan konsistensi Exercise 4: Variabel kategori Exercise 5: Kategori kesalahan Exercise 6: Kategori tidak konsisten Exercise 7: Memetakan ulang kategori Exercise 8: Membersihkan data teks Exercise 9: Menghapus gelar dan mengambil nama Exercise 10: Tetap deskriptif

Di bab ini, Anda akan membahas masalah pembersihan data yang lebih lanjut, seperti memastikan bahwa semua bobot ditulis dalam kilogram, bukan pon. Anda juga akan memperoleh keterampilan berharga untuk membantu memverifikasi bahwa nilai telah dijumlahkan dengan benar, serta memastikan nilai hilang tidak berdampak negatif pada analisis Anda.

Exercise 1: Keseragaman Exercise 2: Tanggal ambigu Exercise 3: Penyamaan mata uang Exercise 4: Tanggal seragam Exercise 5: Validasi lintas bidang Exercise 6: Lintas kolom atau bukan lintas kolom?Exercise 7: Bagaimana integritas data kita?Exercise 8: Kelengkapan Exercise 9: Apakah ini missing at random?Exercise 10: Investor yang hilang Exercise 11: Ikuti aliran dana

Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan mempelajari cara menautkan record dengan menghitung kemiripan antarstring—kemudian Anda akan menggunakan keterampilan baru ini untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.

Exercise 1: Membandingkan string Exercise 2: Jarak edit minimum Exercise 3: Titik batas (cutoff)Exercise 4: Pemetaan ulang kategori II Exercise 5: Membuat pasangan Exercise 6: Mengaitkan atau tidak?Exercise 7: Pasangan restoran Exercise 8: Restoran serupa Exercise 9: Menghubungkan DataFrame Exercise 10: Mengambil indeks yang benar Exercise 11: Menghubungkannya bersama!Exercise 12: Selamat!