Mengagregasi duplikat parsial

Cara lain untuk menangani duplikat parsial adalah menghitung statistik ringkasan dari nilai-nilai yang berbeda antar duplikat parsial, seperti mean, median, maksimum, atau minimum. Ini berguna ketika Anda tidak yakin bagaimana data dikumpulkan dan menginginkan nilai rata-rata, atau jika berdasarkan pengetahuan domain, Anda lebih memilih estimasi yang terlalu tinggi daripada terlalu rendah (atau sebaliknya).

dplyr sudah dimuat dan bike_share_rides tersedia.

Latihan ini merupakan bagian dari kursus

Membersihkan Data di R

Instruksi latihan

Kelompokkan bike_share_rides berdasarkan ride_id dan date.
Tambahkan kolom bernama duration_min_avg yang berisi rata-rata durasi perjalanan untuk ride_id dan date pada baris tersebut.
Hapus duplikat berdasarkan ride_id dan date, dengan tetap mempertahankan semua kolom data frame.
Hapus kolom duration_min.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Membersihkan Data di R

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data di masa depan, dan menghapus titik data yang terduplikasi untuk menghindari penghitungan ganda.

Exercise 1: Kendala tipe data Exercise 2: Tipe data umum Exercise 3: Mengonversi tipe data Exercise 4: Memangkas string Exercise 5: Kendala rentang Exercise 6: Kendala durasi perjalanan Exercise 7: Kembali ke masa depan Exercise 8: Kendala keunikan Exercise 9: Duplikat penuh Exercise 10: Menghapus duplikasi parsial Exercise 11: Mengagregasi duplikat parsial

Latihan Saat Ini

Data kategorikal dan teks sering kali menjadi bagian paling berantakan dari sebuah himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.

Exercise 1: Memeriksa keanggotaan Exercise 2: Hanya untuk anggota Exercise 3: Bukan anggota Exercise 4: Masalah data kategorikal Exercise 5: Mengidentifikasi inkonsistensi Exercise 6: Mengoreksi ketidakkonsistenan Exercise 7: Menggabungkan kategori Exercise 8: Membersihkan data teks Exercise 9: Mendeteksi data teks yang tidak konsisten Exercise 10: Mengganti dan menghapus Exercise 11: Nomor telepon tidak valid

Di bab ini, Anda akan menyelami masalah pembersihan data yang lebih lanjut, misalnya memastikan bahwa semua bobot ditulis dalam kilogram alih-alih pon. Anda juga akan memperoleh keterampilan penting untuk membantu Anda memverifikasi bahwa nilai telah ditambahkan dengan benar dan bahwa nilai hilang tidak berdampak negatif pada analisis Anda.

Exercise 1: Keseragaman Exercise 2: Keseragaman tanggal Exercise 3: Keseragaman mata uang Exercise 4: Validasi lintas kolom Exercise 5: Memvalidasi total Exercise 6: Memvalidasi usia Exercise 7: Kelengkapan Exercise 8: Jenis-jenis missingness Exercise 9: Memvisualisasikan data hilang Exercise 10: Menangani data hilang

Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan belajar menautkan rekaman dengan menghitung kesamaan antar-string—lalu menggunakan keterampilan baru Anda untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.

Exercise 1: Membandingkan string Exercise 2: Menghitung jarak Exercise 3: Jarak kecil, perbedaan kecil Exercise 4: Memperbaiki salah ketik dengan jarak string Exercise 5: Membuat dan membandingkan pasangan Exercise 6: Tautkan atau gabungkan?Exercise 7: Pemblokiran pasangan Exercise 8: Membandingkan pasangan Exercise 9: Pemberian skor dan pengaitan Exercise 10: Nilai lalu pilih atau pilih lalu nilai?Exercise 11: Menggabungkan semuanya Exercise 12: Selamat!