1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v R

Connected

cvičení

Oprava nekonzistencí

Teď, když víš, že sloupec dest_size obsahuje nekonzistentní mezery a sloupec cleanliness nekonzistentní velikost písmen, použiješ nové nástroje k opravě těchto hodnot v datasetu sfo_survey — místo jejich úplného odstranění. Mazání záznamů by totiž mohlo zanést do dat zkreslení, pokud by bylo potřeba vyřadit více než 5 % hodnot.

dplyr a stringr jsou načteny a dataset sfo_survey je k dispozici.

Pokyny

100 XP
  • Přidej do sfo_survey sloupec dest_size_trimmed, který bude obsahovat hodnoty ze sloupce dest_size s odstraněnými mezerami na začátku i na konci.
  • Přidej další sloupec cleanliness_lower, který bude obsahovat hodnoty ze sloupce cleanliness převedené na malá písmena.
  • Spočítej počet výskytů každé kategorie ve sloupci dest_size_trimmed.
  • Spočítej počet výskytů každé kategorie ve sloupci cleanliness_lower.