Zeichenmuster extrahieren
Die Spalte Length im hiking-Datensatz ist eine Spalte mit Strings, enthält aber die Meilenangabe der Wanderung. Wir werden diese Meilenzahl mit regulären Ausdrücken extrahieren und dann in pandas mit einer Lambda-Funktion die Extraktion auf das DataFrame anwenden.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Durchsuche den Text im Argument
lengthnach Zahlen und Dezimalstellen mit einem passenden Muster. - Extrahiere das gefundene Muster und wandle es in einen Float um.
- Wende die Funktion
return_mileage()auf jede Zeile der Spaltehiking["Length"]an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Write a pattern to extract numbers and decimals
def return_mileage(length):
# Search the text for matches
mile = re.____(____, ____)
# If a value is returned, use group(0) to return the found value
if mile is not None:
return float(____)
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())