1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w R

Connected

ćwiczenie

Poprawianie niespójności

Skoro już wiesz, że kolumna dest_size zawiera niespójności z białymi znakami, a cleanliness – niespójności związane z wielkością liter, możesz teraz skorzystać z nowych narzędzi, aby naprawić te wartości w zbiorze sfo_survey zamiast całkowicie usuwać odpowiednie wiersze. Usuwanie danych mogłoby wprowadzić błąd systematyczny do zbioru, jeśli trzeba by odrzucić ponad 5% obserwacji.

Biblioteki dplyr i stringr są już wczytane, a zbiór sfo_survey jest dostępny.

Instrukcje

100 XP
  • Dodaj do sfo_survey kolumnę o nazwie dest_size_trimmed, która będzie zawierać wartości z kolumny dest_size z usuniętymi białymi znakami na początku i na końcu.
  • Dodaj kolejną kolumnę o nazwie cleanliness_lower, która będzie zawierać wartości z kolumny cleanliness przekonwertowane na same małe litery.
  • Zlicz liczbę wystąpień każdej kategorii w kolumnie dest_size_trimmed.
  • Zlicz liczbę wystąpień każdej kategorii w kolumnie cleanliness_lower.