Additionner des chaînes de caractères et concaténer des nombres
Dans l'exercice précédent, vous avez pu déterminer que le type de données category est le type approprié pour user_type et le convertir afin d'extraire des résumés statistiques pertinents qui éclairent la distribution de user_type.
Un autre problème courant lié au type de données consiste à importer des valeurs qui devraient être numériques sous forme de chaînes de caractères, car les opérations mathématiques telles que l'addition et la multiplication conduisent à une concaténation de chaînes de caractères, et non à des résultats numériques.
Dans cet exercice, vous allez convertir la colonne de type chaîne duration en type int. Avant cela, il est toutefois nécessaire de supprimer "minutes" de la colonne afin que pandas la lise comme une valeur numérique. Le package pandas a été importé sous le nom pd.
Cet exercice fait partie du cours
Nettoyage des données en Python
Instructions
- Utilisez la méthode
.strip()pour extrairedurationde"minutes"et l'enregistrer dans la colonneduration_trim. - Convertissez
duration_trimenintet enregistrez le résultat dans la colonneduration_time. - Écrivez une instruction
assertqui vérifie si le type de données deduration_timeest désormaisint. - Affichez la durée moyenne du trajet.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].____.____()
# Convert duration to integer
ride_sharing['duration_time'] = ____
# Write an assert statement making sure of conversion
assert ride_sharing['____'].____ == '____'
# Print formed columns and calculate average ride duration
print(ride_sharing[['duration','duration_trim','duration_time']])
print(____)