Hitung Persentase Nilai Hilang
Automasi adalah masa depan data science. Mempelajari cara mengotomatiskan sebagian persiapan data akan sangat bermanfaat. Pada latihan ini, kita akan mengotomatiskan penghapusan kolom jika data yang hilang melebihi ambang batas tertentu.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Definisikan fungsi
column_dropper()yang menerima parameterdfberupa dataframe danthresholdberupa float antara 0 dan 1. - Hitung persentase nilai yang hilang menggunakan
where(),isNull()dancount() - Periksa apakah persentase nilai hilang lebih tinggi daripada ambang batas; jika ya, hapus kolom tersebut menggunakan
drop() - Jalankan
column_dropper()padadfdenganthresholddisetel ke .6
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def column_dropper(df, threshold):
# Takes a dataframe and threshold for missing values. Returns a dataframe.
total_records = df.____()
for col in df.columns:
# Calculate the percentage of missing values
missing = df.____(df[col].____()).____()
missing_percent = ____ / ____
# Drop column if percent of missing is more than threshold
if ____ > ____:
df = df.____(col)
return df
# Drop columns that are more than 60% missing
df = ____(____, ____)