LoslegenKostenlos starten

Zeichenmuster extrahieren

Die Spalte Length im hiking-Datensatz ist eine Spalte mit Strings, enthält aber die Meilenangabe der Wanderung. Wir werden diese Meilenzahl mit regulären Ausdrücken extrahieren und dann in pandas mit einer Lambda-Funktion die Extraktion auf das DataFrame anwenden.

Diese Übung ist Teil des Kurses

<Kurs>Vorverarbeitung für Machine Learning in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Durchsuche den Text im Argument length nach Zahlen und Dezimalstellen mit einem passenden Muster.
  • Extrahiere das gefundene Muster und wandle es in einen Float um.
  • Wende die Funktion return_mileage() auf jede Zeile der Spalte hiking["Length"] an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Write a pattern to extract numbers and decimals
def return_mileage(length):
    
    # Search the text for matches
    mile = re.____(____, ____)
    
    # If a value is returned, use group(0) to return the found value
    if mile is not None:
        return float(____)
        
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())
Code bearbeiten und ausführen