1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v R

Connected

cvičení

Ořezávání řetězců

V předchozím cvičení sis dokázal/a určit správný datový typ a převést sloupec user_birth_year na správný typ – to ti umožnilo získat počty, které ti přinesly zajímavější pohled na dataset.

Dalším běžným problémem s nečistými daty je přítomnost nadbytečných znaků, jako jsou procenta nebo tečky v číslech, kvůli kterým jsou tato čísla načtena jako character. Aby bylo možné s těmito čísly pracovat, musíš nadbytečné znaky odstranit a čísla převést z typu character na numeric. V tomto cvičení budeš potřebovat převést sloupec duration z typu character na numeric, ale nejprve je nutné z každé hodnoty odstranit slovo "minutes".

Balíčky dplyr, assertive a stringr jsou načtené a dataset bike_share_rides je k dispozici.

Pokyny

100 XP
  • Pomocí funkce str_remove() odstraň "minutes" ze sloupce duration v datasetu bike_share_rides. Výsledek ulož jako nový sloupec s názvem duration_trimmed.
  • Převeď sloupec duration_trimmed na číselný typ a výsledek ulož jako nový sloupec s názvem duration_mins.
  • Prohlédni si strukturu datasetu bike_share_rides pomocí glimpse a ověř, že sloupec duration_mins je typu numeric.
  • Vypočítej průměr sloupce duration_mins.