MulaiMulai sekarang secara gratis

Hitung Persentase Nilai Hilang

Automasi adalah masa depan data science. Mempelajari cara mengotomatiskan sebagian persiapan data akan sangat bermanfaat. Pada latihan ini, kita akan mengotomatiskan penghapusan kolom jika data yang hilang melebihi ambang batas tertentu.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Definisikan fungsi column_dropper() yang menerima parameter df berupa dataframe dan threshold berupa float antara 0 dan 1.
  • Hitung persentase nilai yang hilang menggunakan where(), isNull() dan count()
  • Periksa apakah persentase nilai hilang lebih tinggi daripada ambang batas; jika ya, hapus kolom tersebut menggunakan drop()
  • Jalankan column_dropper() pada df dengan threshold disetel ke .6

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def column_dropper(df, threshold):
  # Takes a dataframe and threshold for missing values. Returns a dataframe.
  total_records = df.____()
  for col in df.columns:
    # Calculate the percentage of missing values
    missing = df.____(df[col].____()).____()
    missing_percent = ____ / ____
    # Drop column if percent of missing is more than threshold
    if ____ > ____:
      df = df.____(col)
  return df

# Drop columns that are more than 60% missing
df = ____(____, ____)
Edit dan Jalankan Kode