Memvisualisasikan Data Hilang
Kemampuan memplot nilai yang hilang adalah cara yang bagus untuk cepat memahami seberapa banyak data Anda yang hilang. Ini juga dapat membantu menyoroti ketika variabel hilang mengikuti pola tertentu—sesuatu yang perlu ditangani dengan cermat agar model Anda tidak menjadi bias.
Variabel mana yang memiliki nilai hilang terbanyak? Jalankan semua baris kode kecuali yang terakhir untuk menentukan jawabannya. Setelah Anda yakin, isi nilainya lalu klik "Kirim Jawaban".
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Gunakan
select()untuk mensubset dataframedfdengan daftar kolomcolumnsdan lakukan sampling dengan fungsisample()yang disediakan, lalu tetapkan dataframe ini ke variabelsample_df. - Konversi dataframe subset menjadi dataframe
pandaspandas_df, dan gunakanpandasisnull()untuk mengubahDataFrametersebut menjadi True/False. Simpan hasilnya dalamtf_df. - Gunakan
heatmap()dari seaborn untuk memplottf_df. - Klik "Jalankan Kode" untuk melihat plot. Lalu tetapkan nama variabel dengan nilai hilang terbanyak ke
answer.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Sample the dataframe and convert to Pandas
____ = df.select(____).sample(False, 0.1, 42)
____ = ____.toPandas()
# Convert all values to T/F
tf_df = ____.____()
# Plot it
sns.____(data=____)
plt.xticks(rotation=30, fontsize=10)
plt.yticks(rotation=0, fontsize=10)
plt.show()
# Set the answer to the column with the most missing data
answer = '____'