Plot mosaik
Spine plot yang Anda buat pada latihan sebelumnya memungkinkan Anda mempelajari pola data hilang antara dua variabel sekaligus. Gagasan ini digeneralisasi ke lebih banyak variabel dalam bentuk plot mosaik.
Dalam latihan ini, Anda akan mulai dengan membuat variabel dummy yang menunjukkan apakah Amerika Serikat terlibat dalam produksi setiap film. Untuk melakukannya, Anda akan menggunakan fungsi grepl(), yang memeriksa apakah string yang diteruskan sebagai argumen pertama terdapat dalam objek yang diteruskan sebagai argumen kedua. Lalu, Anda akan menggambar plot mosaik untuk melihat apakah jenis kelamin subjek berhubungan dengan banyaknya data hilang pada pendapatan untuk film AS dan non-AS.
Data biopics serta paket VIM sudah dimuat untuk Anda. Mari lakukan plotting eksploratori!
Catatan bahwa fungsi kepemilikan display_image() telah dibuat untuk mengembalikan keluaran dari versi paket VIM terbaru. Pastikan Anda membuka bagian HTML Viewer.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Masukkan data
biopicske dalam pipelinedplyr. - Buat variabel dummy
is_US_movieyang bernilaiTRUEjikacountrymengandung string"US"danFALSEjika tidak. - Gambar plot mosaik yang menampilkan jumlah data hilang pada
"earnings"yang dipisahkan oleh"is_US_movie"dan"sub_sex", dengan mengingat untuk meneruskan nama variabel sebagai string.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Prepare data for plotting and draw a mosaic plot
___ %>%
# Create a dummy variable for US-produced movies
mutate(is_US_movie = grepl(___, ___)) %>%
# Draw mosaic plot
mosaicMiss(highlight = ___,
plotvars = c(___, ___))
# Return plot from latest VIM package - expand the HTML viewer section
display_image()