Additionner des chaînes de caractères et concaténer des nombres
Dans l'exercice précédent, vous avez pu déterminer que le type de données « category
» était le type approprié pour « user_type
» et le convertir afin d'extraire des résumés statistiques pertinents qui éclairent la distribution de « user_type
».
Un autre problème courant lié au type de données consiste à importer des valeurs qui devraient être numériques sous forme de chaînes, car les opérations mathématiques telles que l'addition et la multiplication entraînent une concaténation de chaînes, et non des résultats numériques.
Dans cet exercice, vous allez convertir la colonne de type chaîne duration
en type int
. "minutes"
Avant cela, vous devrez toutefois vous assurer de supprimer les caractères spéciaux de la colonne afin que pandas
puisse la lire comme une valeur numérique. Le paquet pandas
a été importé sous le nom pd
.
Cet exercice fait partie du cours
Nettoyage des données dans Python
Instructions
- Utilisez la méthode
.strip()
pour supprimer"minutes"
deduration
et enregistrez-le dans la colonneduration_trim
. - Convertissez
duration_trim
enint
et enregistrez-le dans la colonneduration_time
. - Écrivez une instruction d'
assert
qui vérifie si le type de donnéesde l'duration_time
est désormais unint
. - Imprimer la durée moyenne des trajets.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].____.____()
# Convert duration to integer
ride_sharing['duration_time'] = ____
# Write an assert statement making sure of conversion
assert ride_sharing['____'].____ == '____'
# Print formed columns and calculate average ride duration
print(ride_sharing[['duration','duration_trim','duration_time']])
print(____)