Mengoreksi ketidakkonsistenan
Sekarang setelah Anda mengidentifikasi bahwa dest_size memiliki ketidakkonsistenan spasi kosong dan cleanliness memiliki ketidakkonsistenan kapitalisasi, Anda akan menggunakan alat baru yang tersedia untuk memperbaiki nilai yang tidak konsisten di sfo_survey alih-alih menghapus titik data sepenuhnya, yang dapat menambahkan bias ke himpunan data Anda jika lebih dari 5% titik data perlu dihapus.
dplyr dan stringr sudah dimuat dan sfo_survey tersedia.
Latihan ini adalah bagian dari kursus
Membersihkan Data di R
Petunjuk latihan
- Tambahkan kolom ke
sfo_surveybernamadest_size_trimmedyang berisi nilai pada kolomdest_sizedengan semua spasi di awal dan akhir dihapus. - Tambahkan kolom lain bernama
cleanliness_loweryang berisi nilai pada kolomcleanlinessyang diubah seluruhnya menjadi huruf kecil. - Hitung jumlah kemunculan tiap kategori di
dest_size_trimmed. - Hitung jumlah kemunculan tiap kategori di
cleanliness_lower.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___