1. Learn
  2. /
  3. Cursuri
  4. /
  5. Curățarea datelor în R

Connected

exercițiu

Eliminarea șirurilor de caractere

În exercițiul anterior, ai reușit să identifici tipul de date corect și să convertești user_birth_year la tipul potrivit, ceea ce ți-a permis să extragi numărători care oferă mai multă perspectivă asupra setului de date.

O altă problemă frecventă în datele neîngrijite este prezența unor caractere în plus – cum ar fi semnele de procent sau punctele din numere – care determină citirea acestora ca character. Pentru a putea prelucra aceste numere, caracterele în plus trebuie eliminate, iar valorile trebuie convertite din character în numeric. În acest exercițiu, va trebui să convertești coloana duration din character în numeric, dar mai întâi trebuie eliminat cuvântul "minutes" din fiecare valoare.

dplyr, assertive și stringr sunt încărcate, iar bike_share_rides este disponibil.

Instrucțiuni

100 XP
  • Folosește str_remove() pentru a elimina "minutes" din coloana duration a setului de date bike_share_rides. Adaugă rezultatul ca o nouă coloană numită duration_trimmed.
  • Convertește coloana duration_trimmed la tipul numeric și adaugă rezultatul ca o nouă coloană numită duration_mins.
  • Aruncă o privire rapidă asupra lui bike_share_rides cu glimpse și verifică că tipul coloanei duration_mins este numeric.
  • Calculează media coloanei duration_mins.