Tutarsızlığı düzeltme
dest_size sütununda boşluk tutarsızlıkları ve cleanliness sütununda büyük/küçük harf tutarsızlıkları olduğunu belirlediğine göre, artık elindeki yeni araçları kullanarak sfo_survey içindeki tutarsız değerleri düzelteceksin. Böylece, veri noktalarını tamamen kaldırmak yerine onları korumuş olacaksın; çünkü veri noktalarının %5’inden fazlasını atman gerekirse veri kümesine önyargı katabilirsin.
dplyr ve stringr yüklendi ve sfo_survey kullanılabilir.
Bu egzersiz
R ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
sfo_survey’e,dest_sizesütunundaki değerlerin baştaki ve sondaki tüm boşlukları kaldırılmış hâlini içerendest_size_trimmedadlı bir sütun ekle.- Tüm değerleri küçük harfe çevrilmiş
cleanlinesssütununu içerencleanliness_loweradlı bir başka sütun ekle. dest_size_trimmediçindeki her kategorinin kaç kez göründüğünü say.cleanliness_loweriçindeki her kategorinin kaç kez göründüğünü say.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___