Mengekstraksi pola string
Kolom Length dalam himpunan data hiking berisi string, namun di dalamnya terdapat nilai jarak tempuh pendakian. Kita akan mengekstrak jarak tempuh ini menggunakan regular expression, lalu menggunakan lambda di pandas untuk menerapkan ekstraksi tersebut ke DataFrame.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Cari angka dan desimal pada teks di argumen
lengthmenggunakan pola yang sesuai. - Ekstrak pola yang cocok dan ubah menjadi float.
- Terapkan fungsi
return_mileage()ke setiap baris di kolomhiking["Length"].
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Write a pattern to extract numbers and decimals
def return_mileage(length):
# Search the text for matches
mile = re.____(____, ____)
# If a value is returned, use group(0) to return the found value
if mile is not None:
return float(____)
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())