CommencerCommencez gratuitement

Extraire des motifs dans une chaîne

La colonne Length dans le jeu de données hiking contient des chaînes de caractères, mais on y trouve la distance de la randonnée en miles. Nous allons extraire cette distance à l’aide d’expressions régulières, puis utiliser une lambda dans pandas pour appliquer l’extraction au DataFrame.

Cet exercice fait partie du cours

<cours>Prétraitement pour le Machine Learning en Python</cours>
Voir le cours

Instructions de l’exercice

  • Recherchez dans le texte de l’argument length les nombres entiers et décimaux en utilisant un motif approprié.
  • Extrayez le motif trouvé et convertissez-le en float.
  • Appliquez la fonction return_mileage() à chaque ligne de la colonne hiking["Length"].

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Write a pattern to extract numbers and decimals
def return_mileage(length):
    
    # Search the text for matches
    mile = re.____(____, ____)
    
    # If a value is returned, use group(0) to return the found value
    if mile is not None:
        return float(____)
        
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())
Modifier et exécuter le code