Graphique en mosaïque
Le graphique en arêtes que vous avez créé dans l’exercice précédent permet d’étudier les schémas de données manquantes entre deux variables à la fois. Cette idée se généralise à davantage de variables avec un graphique en mosaïque.
Dans cet exercice, vous allez commencer par créer une variable indicatrice indiquant si les États‑Unis ont participé à la production de chaque film. Pour cela, vous utiliserez la fonction grepl(), qui vérifie si la chaîne passée comme premier argument est présente dans l’objet passé comme second argument. Ensuite, vous tracerez un graphique en mosaïque pour voir si le sexe du sujet est corrélé avec la quantité de données manquantes sur les recettes, pour les films US et non US.
Les données biopics ainsi que le package VIM sont déjà chargés pour vous. Passons à quelques visualisations exploratoires !
Note qu’une fonction propriétairedisplay_image()a été créée pour renvoyer le résultat de la dernière version du packageVIM. Pensez à développer la sectionHTML Viewer_.
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Envoyez les données
biopicsdans le pipelinedplyr. - Créez une variable indicatrice
is_US_moviequi vautTRUEsicountrycontient la chaîne"US"etFALSEsinon. - Tracez un graphique en mosaïque qui montre la quantité de données manquantes dans
"earnings", réparties par"is_US_movie"et"sub_sex", en veillant à passer les noms de variables sous forme de chaînes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Prepare data for plotting and draw a mosaic plot
___ %>%
# Create a dummy variable for US-produced movies
mutate(is_US_movie = grepl(___, ___)) %>%
# Draw mosaic plot
mosaicMiss(highlight = ___,
plotvars = c(___, ___))
# Return plot from latest VIM package - expand the HTML viewer section
display_image()