Nettoyer des chaînes de caractères
Dans l’exercice précédent, vous avez identifié le bon type de données et converti user_birth_year vers le type approprié, ce qui vous a permis d’extraire des comptages offrant un peu plus de visibilité sur l’ensemble de données.
Un autre problème courant avec des données « sales » consiste à avoir des éléments en trop, comme des signes de pourcentage ou des points dans des nombres, ce qui les fait être lus comme des character. Pour pouvoir calculer avec ces nombres, il faut supprimer ces éléments superflus et convertir les valeurs de character en numeric. Dans cet exercice, vous devez convertir la colonne duration de character à numeric, mais avant cela, le mot "minutes" doit être supprimé de chaque valeur.
dplyr, assertive et stringr sont chargés et bike_share_rides est disponible.
Cet exercice fait partie du cours
Nettoyer des données avec R
Instructions
- Utilisez
str_remove()pour supprimer"minutes"de la colonnedurationdebike_share_rides. Ajoutez le résultat en tant que nouvelle colonne appeléeduration_trimmed. - Convertissez la colonne
duration_trimmeden type numérique et ajoutez-la en tant que nouvelle colonne appeléeduration_mins. - Examinez
bike_share_ridesavec un glimpse et vérifiez que la colonneduration_minsest de typenumeric. - Calculez la moyenne de
duration_mins.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___