IniziaInizia gratis

Grafico a mosaico

Lo spine plot che hai creato nell’esercizio precedente ti permette di studiare i pattern di dati mancanti tra due variabili alla volta. Questa idea si generalizza a più variabili con il grafico a mosaico.

In questo esercizio inizierai creando una variabile dummy che indica se gli Stati Uniti hanno partecipato alla produzione di ogni film. Per farlo, userai la funzione grepl(), che verifica se la stringa passata come primo argomento è presente nell’oggetto passato come secondo argomento. Poi disegnerai un grafico a mosaico per vedere se il genere del soggetto è correlato alla quantità di dati mancanti sui ricavi sia per i film statunitensi sia per quelli non statunitensi.

I dati biopics e il pacchetto VIM sono già caricati per te. Facciamo un po’ di esplorazione grafica!

Nota: è stata creata una funzione proprietariadisplay_image()per restituire l’output dall’ultima versione del pacchettoVIM. Assicurati di espandere la sezioneHTML Viewer_.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Passa i dati biopics nella pipeline di dplyr.
  • Crea una variabile dummy is_US_movie che vale TRUE se country contiene la stringa "US" e FALSE altrimenti.
  • Disegna un grafico a mosaico che mostri la quantità di dati mancanti in "earnings", suddivisa per "is_US_movie" e "sub_sex", ricordando di passare i nomi delle variabili come stringhe.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Prepare data for plotting and draw a mosaic plot
___ %>%
	# Create a dummy variable for US-produced movies
	mutate(is_US_movie = grepl(___, ___)) %>%
	# Draw mosaic plot
	mosaicMiss(highlight = ___, 
             plotvars = c(___, ___))

# Return plot from latest VIM package - expand the HTML viewer section
display_image()
Modifica ed esegui il codice