MulaiMulai sekarang secara gratis

Mengoreksi ketidakkonsistenan

Sekarang setelah Anda mengidentifikasi bahwa dest_size memiliki ketidakkonsistenan spasi kosong dan cleanliness memiliki ketidakkonsistenan kapitalisasi, Anda akan menggunakan alat baru yang tersedia untuk memperbaiki nilai yang tidak konsisten di sfo_survey alih-alih menghapus titik data sepenuhnya, yang dapat menambahkan bias ke himpunan data Anda jika lebih dari 5% titik data perlu dihapus.

dplyr dan stringr sudah dimuat dan sfo_survey tersedia.

Latihan ini adalah bagian dari kursus

Membersihkan Data di R

Lihat Kursus

Petunjuk latihan

  • Tambahkan kolom ke sfo_survey bernama dest_size_trimmed yang berisi nilai pada kolom dest_size dengan semua spasi di awal dan akhir dihapus.
  • Tambahkan kolom lain bernama cleanliness_lower yang berisi nilai pada kolom cleanliness yang diubah seluruhnya menjadi huruf kecil.
  • Hitung jumlah kemunculan tiap kategori di dest_size_trimmed.
  • Hitung jumlah kemunculan tiap kategori di cleanliness_lower.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___
Edit dan Jalankan Kode