CommencerCommencer gratuitement

Extraire des motifs dans une chaîne

La colonne Length dans le jeu de données hiking contient des chaînes de caractères, mais on y trouve la distance de la randonnée en miles. Nous allons extraire cette distance à l’aide d’expressions régulières, puis utiliser une lambda dans pandas pour appliquer l’extraction au DataFrame.

Cet exercice fait partie du cours

Prétraitement pour le Machine Learning en Python

Afficher le cours

Instructions

  • Recherchez dans le texte de l’argument length les nombres entiers et décimaux en utilisant un motif approprié.
  • Extrayez le motif trouvé et convertissez-le en float.
  • Appliquez la fonction return_mileage() à chaque ligne de la colonne hiking["Length"].

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Write a pattern to extract numbers and decimals
def return_mileage(length):
    
    # Search the text for matches
    mile = re.____(____, ____)
    
    # If a value is returned, use group(0) to return the found value
    if mile is not None:
        return float(____)
        
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())
Modifier et exécuter le code