Mozaïekdiagram
De spine-plot die je in de vorige oefening hebt gemaakt, laat je ontbrekende-gegevenspatronen tussen twee variabelen tegelijk bestuderen. Dit idee wordt uitgebreid naar meer variabelen in de vorm van een mozaïekdiagram.
In deze oefening begin je met het maken van een dummyvariabele die aangeeft of de Verenigde Staten betrokken waren bij de productie van elke film. Hiervoor gebruik je de functie grepl(), die controleert of de string die als eerste argument is doorgegeven aanwezig is in het object dat als tweede argument is doorgegeven. Daarna teken je een mozaïekdiagram om te zien of het geslacht van het onderwerp samenhangt met de hoeveelheid ontbrekende gegevens over inkomsten voor zowel Amerikaanse als niet-Amerikaanse films.
De biopics-data en het pakket VIM zijn al voor je geladen. Tijd voor wat verkennende visualisaties!
Let op: er is een eigendisplay_image()functie gemaakt die de output uit de nieuwste versie van hetVIMpakket teruggeeft. Zorg dat je de sectieHTML Viewer uitklapt.
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Geef de
biopics-data door in dedplyr-pipeline. - Maak een dummyvariabele
is_US_moviedieTRUEis alscountryde string"US"bevat en andersFALSE. - Teken een mozaïekdiagram dat de hoeveelheid ontbrekende data in
"earnings"laat zien, gesplitst naar"is_US_movie"en"sub_sex". Vergeet niet om variabelenamen als strings door te geven.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Prepare data for plotting and draw a mosaic plot
___ %>%
# Create a dummy variable for US-produced movies
mutate(is_US_movie = grepl(___, ___)) %>%
# Draw mosaic plot
mosaicMiss(highlight = ___,
plotvars = c(___, ___))
# Return plot from latest VIM package - expand the HTML viewer section
display_image()