Extraire des motifs dans une chaîne
La colonne Length dans le jeu de données hiking contient des chaînes de caractères, mais on y trouve la distance de la randonnée en miles. Nous allons extraire cette distance à l’aide d’expressions régulières, puis utiliser une lambda dans pandas pour appliquer l’extraction au DataFrame.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Recherchez dans le texte de l’argument
lengthles nombres entiers et décimaux en utilisant un motif approprié. - Extrayez le motif trouvé et convertissez-le en float.
- Appliquez la fonction
return_mileage()à chaque ligne de la colonnehiking["Length"].
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Write a pattern to extract numbers and decimals
def return_mileage(length):
# Search the text for matches
mile = re.____(____, ____)
# If a value is returned, use group(0) to return the found value
if mile is not None:
return float(____)
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())