Menangani duplikasi

Pada latihan sebelumnya, Anda telah memverifikasi bahwa pembaruan baru yang mengalir ke ride_sharing mengandung bug yang menghasilkan baris duplikat lengkap dan tidak lengkap untuk beberapa nilai kolom ride_id, dengan sesekali terdapat nilai yang berbeda pada kolom user_birth_year dan duration.

Pada latihan ini, Anda akan menangani baris-baris duplikat tersebut dengan terlebih dahulu menghapus duplikat lengkap, lalu menggabungkan baris duplikat tidak lengkap menjadi satu sambil mempertahankan nilai rata-rata duration, dan nilai minimum user_birth_year untuk setiap kumpulan baris duplikat tidak lengkap.

Latihan ini merupakan bagian dari kursus

Membersihkan Data di Python

Instruksi latihan

Hapus duplikat lengkap di ride_sharing dan simpan hasilnya ke ride_dup.
Buat kamus statistics yang memuat agregasi minimum untuk user_birth_year dan agregasi mean untuk duration.
Hapus duplikat tidak lengkap dengan melakukan pengelompokan berdasarkan ride_id dan menerapkan agregasi dalam statistics.
Temukan duplikat kembali dan jalankan pernyataan assert untuk memverifikasi proses de-duplikasi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Membersihkan Data di Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data masa depan, dan menghapus duplikasi titik data untuk menghindari penghitungan ganda.

Exercise 1: Kendala tipe data Exercise 2: Tipe data umum Exercise 3: Data numerik atau ... ?Exercise 4: Menjumlahkan string dan menggabungkan angka Exercise 5: Kendala rentang data Exercise 6: Kendala ukuran ban Exercise 7: Kembali ke masa depan Exercise 8: Kendala keunikan Exercise 9: Seberapa besar subset Anda?Exercise 10: Menemukan duplikat Exercise 11: Menangani duplikasi

Latihan Saat Ini

Data kategorikal dan teks sering kali menjadi bagian yang paling berantakan dalam suatu himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.

Exercise 1: Kendala keanggotaan Exercise 2: Khusus anggota Exercise 3: Menemukan konsistensi Exercise 4: Variabel kategori Exercise 5: Kategori kesalahan Exercise 6: Kategori tidak konsisten Exercise 7: Memetakan ulang kategori Exercise 8: Membersihkan data teks Exercise 9: Menghapus gelar dan mengambil nama Exercise 10: Tetap deskriptif

Di bab ini, Anda akan membahas masalah pembersihan data yang lebih lanjut, seperti memastikan bahwa semua bobot ditulis dalam kilogram, bukan pon. Anda juga akan memperoleh keterampilan berharga untuk membantu memverifikasi bahwa nilai telah dijumlahkan dengan benar, serta memastikan nilai hilang tidak berdampak negatif pada analisis Anda.

Exercise 1: Keseragaman Exercise 2: Tanggal ambigu Exercise 3: Penyamaan mata uang Exercise 4: Tanggal seragam Exercise 5: Validasi lintas bidang Exercise 6: Lintas kolom atau bukan lintas kolom?Exercise 7: Bagaimana integritas data kita?Exercise 8: Kelengkapan Exercise 9: Apakah ini missing at random?Exercise 10: Investor yang hilang Exercise 11: Ikuti aliran dana

Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan mempelajari cara menautkan record dengan menghitung kemiripan antarstring—kemudian Anda akan menggunakan keterampilan baru ini untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.

Exercise 1: Membandingkan string Exercise 2: Jarak edit minimum Exercise 3: Titik batas (cutoff)Exercise 4: Pemetaan ulang kategori II Exercise 5: Membuat pasangan Exercise 6: Mengaitkan atau tidak?Exercise 7: Pasangan restoran Exercise 8: Restoran serupa Exercise 9: Menghubungkan DataFrame Exercise 10: Mengambil indeks yang benar Exercise 11: Menghubungkannya bersama!Exercise 12: Selamat!