Pulizia di stringhe
Nel precedente esercizio hai individuato il tipo di dato corretto e hai convertito user_birth_year nel tipo giusto, permettendoti di estrarre conteggi che ti hanno dato un po’ più di insight sull’insieme di dati.
Un altro problema comune di dati “sporchi” è la presenza di elementi in più, come segni di percentuale o punti all’interno dei numeri, che fanno sì che vengano letti come character. Per poter elaborare questi numeri, bisogna rimuovere gli elementi superflui e convertire i valori da character a numeric. In questo esercizio dovrai convertire la colonna duration da character a numeric, ma prima di farlo è necessario rimuovere la parola "minutes" da ogni valore.
dplyr, assertive e stringr sono già caricati e bike_share_rides è disponibile.
Questo esercizio fa parte del corso
Pulizia dei dati in R
Istruzioni dell'esercizio
- Usa
str_remove()per rimuovere"minutes"dalla colonnadurationdibike_share_rides. Aggiungila come nuova colonna chiamataduration_trimmed. - Converte la colonna
duration_trimmedin tipo numerico e aggiungila come nuova colonna chiamataduration_mins. - Dai un’occhiata a
bike_share_ridese verifica che la colonnaduration_minssia di tiponumeric. - Calcola la media di
duration_mins.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___