Memvisualisasikan Data Hilang
Kemampuan memplot nilai yang hilang adalah cara yang bagus untuk cepat memahami seberapa banyak data Anda yang hilang. Ini juga dapat membantu menyoroti ketika variabel hilang mengikuti pola tertentu—sesuatu yang perlu ditangani dengan cermat agar model Anda tidak menjadi bias.
Variabel mana yang memiliki nilai hilang terbanyak? Jalankan semua baris kode kecuali yang terakhir untuk menentukan jawabannya. Setelah Anda yakin, isi nilainya lalu klik "Kirim Jawaban".
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur dengan PySpark
Instruksi latihan
- Gunakan
select()untuk mensubset dataframedfdengan daftar kolomcolumnsdan lakukan sampling dengan fungsisample()yang disediakan, lalu tetapkan dataframe ini ke variabelsample_df. - Konversi dataframe subset menjadi dataframe
pandaspandas_df, dan gunakanpandasisnull()untuk mengubahDataFrametersebut menjadi True/False. Simpan hasilnya dalamtf_df. - Gunakan
heatmap()dari seaborn untuk memplottf_df. - Klik "Jalankan Kode" untuk melihat plot. Lalu tetapkan nama variabel dengan nilai hilang terbanyak ke
answer.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Sample the dataframe and convert to Pandas
____ = df.select(____).sample(False, 0.1, 42)
____ = ____.toPandas()
# Convert all values to T/F
tf_df = ____.____()
# Plot it
sns.____(data=____)
plt.xticks(rotation=30, fontsize=10)
plt.yticks(rotation=0, fontsize=10)
plt.show()
# Set the answer to the column with the most missing data
answer = '____'