Duplikat penuh

Anda telah diberitahu bahwa ada pembaruan pada pipeline data bike sharing agar lebih efisien, tetapi akibatnya kemungkinan duplikat menjadi lebih tinggi. Agar Anda tetap dapat menggunakan skrip yang sama untuk menjalankan analisis mingguan tentang statistik perjalanan, Anda perlu memastikan bahwa semua duplikat dalam himpunan data dihapus terlebih dahulu.

Ketika beberapa baris dari sebuah data frame memiliki nilai yang sama untuk semua kolom, baris-baris tersebut merupakan duplikat penuh satu sama lain. Menghapus duplikat seperti ini penting, karena pengulangan nilai yang sama berkali-kali dapat mengubah statistik ringkasan seperti mean dan median. Setiap perjalanan, termasuk ride_id-nya, harus unik.

dplyr sudah dimuat dan bike_share_rides tersedia.

Latihan ini merupakan bagian dari kursus

Membersihkan Data di R

Instruksi latihan

Dapatkan total jumlah duplikat penuh dalam bike_share_rides.
Hapus semua duplikat penuh dari bike_share_rides dan simpan data frame baru sebagai bike_share_rides_unique.
Dapatkan total jumlah duplikat penuh dalam data frame baru bike_share_rides_unique.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Membersihkan Data di R

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data di masa depan, dan menghapus titik data yang terduplikasi untuk menghindari penghitungan ganda.

Exercise 1: Kendala tipe data Exercise 2: Tipe data umum Exercise 3: Mengonversi tipe data Exercise 4: Memangkas string Exercise 5: Kendala rentang Exercise 6: Kendala durasi perjalanan Exercise 7: Kembali ke masa depan Exercise 8: Kendala keunikan Exercise 9: Duplikat penuh

Latihan Saat Ini

Exercise 10: Menghapus duplikasi parsial Exercise 11: Mengagregasi duplikat parsial

Data kategorikal dan teks sering kali menjadi bagian paling berantakan dari sebuah himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.

Exercise 1: Memeriksa keanggotaan Exercise 2: Hanya untuk anggota Exercise 3: Bukan anggota Exercise 4: Masalah data kategorikal Exercise 5: Mengidentifikasi inkonsistensi Exercise 6: Mengoreksi ketidakkonsistenan Exercise 7: Menggabungkan kategori Exercise 8: Membersihkan data teks Exercise 9: Mendeteksi data teks yang tidak konsisten Exercise 10: Mengganti dan menghapus Exercise 11: Nomor telepon tidak valid

Di bab ini, Anda akan menyelami masalah pembersihan data yang lebih lanjut, misalnya memastikan bahwa semua bobot ditulis dalam kilogram alih-alih pon. Anda juga akan memperoleh keterampilan penting untuk membantu Anda memverifikasi bahwa nilai telah ditambahkan dengan benar dan bahwa nilai hilang tidak berdampak negatif pada analisis Anda.

Exercise 1: Keseragaman Exercise 2: Keseragaman tanggal Exercise 3: Keseragaman mata uang Exercise 4: Validasi lintas kolom Exercise 5: Memvalidasi total Exercise 6: Memvalidasi usia Exercise 7: Kelengkapan Exercise 8: Jenis-jenis missingness Exercise 9: Memvisualisasikan data hilang Exercise 10: Menangani data hilang

Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan belajar menautkan rekaman dengan menghitung kesamaan antar-string—lalu menggunakan keterampilan baru Anda untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.

Exercise 1: Membandingkan string Exercise 2: Menghitung jarak Exercise 3: Jarak kecil, perbedaan kecil Exercise 4: Memperbaiki salah ketik dengan jarak string Exercise 5: Membuat dan membandingkan pasangan Exercise 6: Tautkan atau gabungkan?Exercise 7: Pemblokiran pasangan Exercise 8: Membandingkan pasangan Exercise 9: Pemberian skor dan pengaitan Exercise 10: Nilai lalu pilih atau pilih lalu nilai?Exercise 11: Menggabungkan semuanya Exercise 12: Selamat!