Grafico a mosaico
Lo spine plot che hai creato nell’esercizio precedente ti permette di studiare i pattern di dati mancanti tra due variabili alla volta. Questa idea si generalizza a più variabili con il grafico a mosaico.
In questo esercizio inizierai creando una variabile dummy che indica se gli Stati Uniti hanno partecipato alla produzione di ogni film. Per farlo, userai la funzione grepl(), che verifica se la stringa passata come primo argomento è presente nell’oggetto passato come secondo argomento. Poi disegnerai un grafico a mosaico per vedere se il genere del soggetto è correlato alla quantità di dati mancanti sui ricavi sia per i film statunitensi sia per quelli non statunitensi.
I dati biopics e il pacchetto VIM sono già caricati per te. Facciamo un po’ di esplorazione grafica!
Nota: è stata creata una funzione proprietariadisplay_image()per restituire l’output dall’ultima versione del pacchettoVIM. Assicurati di espandere la sezioneHTML Viewer_.
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Passa i dati
biopicsnella pipeline didplyr. - Crea una variabile dummy
is_US_movieche valeTRUEsecountrycontiene la stringa"US"eFALSEaltrimenti. - Disegna un grafico a mosaico che mostri la quantità di dati mancanti in
"earnings", suddivisa per"is_US_movie"e"sub_sex", ricordando di passare i nomi delle variabili come stringhe.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Prepare data for plotting and draw a mosaic plot
___ %>%
# Create a dummy variable for US-produced movies
mutate(is_US_movie = grepl(___, ___)) %>%
# Draw mosaic plot
mosaicMiss(highlight = ___,
plotvars = c(___, ___))
# Return plot from latest VIM package - expand the HTML viewer section
display_image()