Menangani karakter liar (II)
Pada latihan sebelumnya, Anda dapat segera mengetahui dari pemanggilan df.head() karakter mana yang menyebabkan masalah. Namun, sering kali hal ini tidak begitu jelas. Sering ada nilai jauh di dalam sebuah kolom yang menghalangi Anda mengubah tipe kolom menjadi numerik sehingga dapat digunakan dalam model atau rekayasa fitur lebih lanjut.
Salah satu pendekatan untuk menemukan nilai-nilai ini adalah memaksa kolom ke tipe data yang diinginkan menggunakan pd.to_numeric(), memaksa nilai apa pun yang bermasalah menjadi NaN, lalu memfilter DataFrame hanya untuk baris yang mengandung nilai NaN tersebut.
Cobalah ubah kolom RawSalary menjadi float dan ini akan gagal karena ada karakter tambahan yang kini ditemukan di dalamnya. Temukan karakter tersebut dan hapus agar kolom dapat diubah menjadi float.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Attempt to convert the column to numeric values
numeric_vals = ____(so_survey_df['RawSalary'], errors='coerce')
# Find the indexes of missing values
idx = ____
# Print the relevant rows
print(so_survey_df['RawSalary']____)