LoslegenKostenlos loslegen

Zeichenmuster extrahieren

Die Spalte Length im hiking-Datensatz ist eine Spalte mit Strings, enthält aber die Meilenangabe der Wanderung. Wir werden diese Meilenzahl mit regulären Ausdrücken extrahieren und dann in pandas mit einer Lambda-Funktion die Extraktion auf das DataFrame anwenden.

Diese Übung ist Teil des Kurses

Vorverarbeitung für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Durchsuche den Text im Argument length nach Zahlen und Dezimalstellen mit einem passenden Muster.
  • Extrahiere das gefundene Muster und wandle es in einen Float um.
  • Wende die Funktion return_mileage() auf jede Zeile der Spalte hiking["Length"] an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Write a pattern to extract numbers and decimals
def return_mileage(length):
    
    # Search the text for matches
    mile = re.____(____, ____)
    
    # If a value is returned, use group(0) to return the found value
    if mile is not None:
        return float(____)
        
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())
Code bearbeiten und ausführen