MulaiMulai sekarang secara gratis

Memvisualisasikan Data Hilang

Kemampuan memplot nilai yang hilang adalah cara yang bagus untuk cepat memahami seberapa banyak data Anda yang hilang. Ini juga dapat membantu menyoroti ketika variabel hilang mengikuti pola tertentu—sesuatu yang perlu ditangani dengan cermat agar model Anda tidak menjadi bias.

Variabel mana yang memiliki nilai hilang terbanyak? Jalankan semua baris kode kecuali yang terakhir untuk menentukan jawabannya. Setelah Anda yakin, isi nilainya lalu klik "Kirim Jawaban".

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan select() untuk mensubset dataframe df dengan daftar kolom columns dan lakukan sampling dengan fungsi sample() yang disediakan, lalu tetapkan dataframe ini ke variabel sample_df.
  • Konversi dataframe subset menjadi dataframe pandas pandas_df, dan gunakan pandas isnull() untuk mengubah DataFrame tersebut menjadi True/False. Simpan hasilnya dalam tf_df.
  • Gunakan heatmap() dari seaborn untuk memplot tf_df.
  • Klik "Jalankan Kode" untuk melihat plot. Lalu tetapkan nama variabel dengan nilai hilang terbanyak ke answer.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Sample the dataframe and convert to Pandas
____ = df.select(____).sample(False, 0.1, 42)
____ = ____.toPandas()

# Convert all values to T/F
tf_df = ____.____()

# Plot it
sns.____(data=____)
plt.xticks(rotation=30, fontsize=10)
plt.yticks(rotation=0, fontsize=10)
plt.show()

# Set the answer to the column with the most missing data
answer = '____'
Edit dan Jalankan Kode