Getallen uit strings halen
Het veld length_of_time in de UFO-gegevensset is een tekstveld waarin het aantal minuten in de string staat. Hier ga je dat getal uit dat tekstveld halen met reguliere expressies.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Zoek in
time_stringnaar getallen met een passend RegEx-patroon. - Gebruik de methode
.apply()omreturn_minutes()aan te roepen op elke rij van de kolomlength_of_time. - Print de
.head()van zowel de kolommenlength_of_timealsminutesom te vergelijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def return_minutes(time_string):
# Search for numbers in time_string
num = re.____(____, ____)
if num is not None:
return int(num.group(0))
# Apply the extraction to the length_of_time column
ufo["minutes"] = ufo["length_of_time"].____
# Take a look at the head of both of the columns
print(ufo[[____]].head())