CommencerCommencer gratuitement

Nettoyer des chaînes de caractères

Dans l’exercice précédent, vous avez identifié le bon type de données et converti user_birth_year vers le type approprié, ce qui vous a permis d’extraire des comptages offrant un peu plus de visibilité sur l’ensemble de données.

Un autre problème courant avec des données « sales » consiste à avoir des éléments en trop, comme des signes de pourcentage ou des points dans des nombres, ce qui les fait être lus comme des character. Pour pouvoir calculer avec ces nombres, il faut supprimer ces éléments superflus et convertir les valeurs de character en numeric. Dans cet exercice, vous devez convertir la colonne duration de character à numeric, mais avant cela, le mot "minutes" doit être supprimé de chaque valeur.

dplyr, assertive et stringr sont chargés et bike_share_rides est disponible.

Cet exercice fait partie du cours

Nettoyer des données avec R

Afficher le cours

Instructions

  • Utilisez str_remove() pour supprimer "minutes" de la colonne duration de bike_share_rides. Ajoutez le résultat en tant que nouvelle colonne appelée duration_trimmed.
  • Convertissez la colonne duration_trimmed en type numérique et ajoutez-la en tant que nouvelle colonne appelée duration_mins.
  • Examinez bike_share_rides avec un glimpse et vérifiez que la colonne duration_mins est de type numeric.
  • Calculez la moyenne de duration_mins.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

bike_share_rides <- bike_share_rides %>%
  # Remove 'minutes' from duration: duration_trimmed
  mutate(duration_trimmed = ___,
         # Convert duration_trimmed to numeric: duration_mins
         duration_mins = ___)

# Glimpse at bike_share_rides
___

# Assert duration_mins is numeric
___

# Calculate mean duration
___
Modifier et exécuter le code