Tutarsızlığı düzeltme
dest_size sütununda boşluk tutarsızlıkları ve cleanliness sütununda büyük/küçük harf tutarsızlıkları olduğunu belirlediğine göre, artık elindeki yeni araçları kullanarak sfo_survey içindeki tutarsız değerleri düzelteceksin. Böylece, veri noktalarını tamamen kaldırmak yerine onları korumuş olacaksın; çünkü veri noktalarının %5’inden fazlasını atman gerekirse veri kümesine önyargı katabilirsin.
dplyr ve stringr yüklendi ve sfo_survey kullanılabilir.
Bu egzersiz, kursun bir parçasıdır
R ile Veri Temizleme
Egzersiz talimatları
sfo_survey’e,dest_sizesütunundaki değerlerin baştaki ve sondaki tüm boşlukları kaldırılmış hâlini içerendest_size_trimmedadlı bir sütun ekle.- Tüm değerleri küçük harfe çevrilmiş
cleanlinesssütununu içerencleanliness_loweradlı bir başka sütun ekle. dest_size_trimmediçindeki her kategorinin kaç kez göründüğünü say.cleanliness_loweriçindeki her kategorinin kaç kez göründüğünü say.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___