CommencerCommencer gratuitement

Graphique en mosaïque

Le graphique en arêtes que vous avez créé dans l’exercice précédent permet d’étudier les schémas de données manquantes entre deux variables à la fois. Cette idée se généralise à davantage de variables avec un graphique en mosaïque.

Dans cet exercice, vous allez commencer par créer une variable indicatrice indiquant si les États‑Unis ont participé à la production de chaque film. Pour cela, vous utiliserez la fonction grepl(), qui vérifie si la chaîne passée comme premier argument est présente dans l’objet passé comme second argument. Ensuite, vous tracerez un graphique en mosaïque pour voir si le sexe du sujet est corrélé avec la quantité de données manquantes sur les recettes, pour les films US et non US.

Les données biopics ainsi que le package VIM sont déjà chargés pour vous. Passons à quelques visualisations exploratoires !

Note qu’une fonction propriétairedisplay_image()a été créée pour renvoyer le résultat de la dernière version du packageVIM. Pensez à développer la sectionHTML Viewer_.

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Envoyez les données biopics dans le pipeline dplyr.
  • Créez une variable indicatrice is_US_movie qui vaut TRUE si country contient la chaîne "US" et FALSE sinon.
  • Tracez un graphique en mosaïque qui montre la quantité de données manquantes dans "earnings", réparties par "is_US_movie" et "sub_sex", en veillant à passer les noms de variables sous forme de chaînes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Prepare data for plotting and draw a mosaic plot
___ %>%
	# Create a dummy variable for US-produced movies
	mutate(is_US_movie = grepl(___, ___)) %>%
	# Draw mosaic plot
	mosaicMiss(highlight = ___, 
             plotvars = c(___, ___))

# Return plot from latest VIM package - expand the HTML viewer section
display_image()
Modifier et exécuter le code