1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w R

Connected

ćwiczenie

Przycinanie ciągów znaków

W poprzednim ćwiczeniu udało się zidentyfikować właściwy typ danych i przekonwertować kolumnę user_birth_year na poprawny typ, co pozwoliło wyciągnąć liczby dające nieco więcej informacji o zbiorze danych.

Innym częstym problemem z brudnymi danymi jest obecność dodatkowych elementów – takich jak znaki procentu czy kropki w liczbach – przez które są one wczytywane jako typ character. Aby móc wykonywać na nich obliczenia, trzeba usunąć te zbędne elementy i przekonwertować liczby z typu character na numeric. W tym ćwiczeniu przekonwertujesz kolumnę duration z typu character na numeric, ale najpierw konieczne jest usunięcie słowa "minutes" z każdej wartości.

Biblioteki dplyr, assertive i stringr są już załadowane, a zbiór bike_share_rides jest dostępny.

Instrukcje

100 XP
  • Użyj funkcji str_remove(), aby usunąć "minutes" z kolumny duration w zbiorze bike_share_rides. Dodaj wynik jako nową kolumnę o nazwie duration_trimmed.
  • Przekonwertuj kolumnę duration_trimmed na typ numeric i dodaj wynik jako nową kolumnę o nazwie duration_mins.
  • Sprawdź strukturę bike_share_rides za pomocą glimpse i zweryfikuj, że kolumna duration_mins jest typu numeric.
  • Oblicz średnią wartość kolumny duration_mins.