Aan de slagGa gratis aan de slag

Mozaïekdiagram

De spine-plot die je in de vorige oefening hebt gemaakt, laat je ontbrekende-gegevenspatronen tussen twee variabelen tegelijk bestuderen. Dit idee wordt uitgebreid naar meer variabelen in de vorm van een mozaïekdiagram.

In deze oefening begin je met het maken van een dummyvariabele die aangeeft of de Verenigde Staten betrokken waren bij de productie van elke film. Hiervoor gebruik je de functie grepl(), die controleert of de string die als eerste argument is doorgegeven aanwezig is in het object dat als tweede argument is doorgegeven. Daarna teken je een mozaïekdiagram om te zien of het geslacht van het onderwerp samenhangt met de hoeveelheid ontbrekende gegevens over inkomsten voor zowel Amerikaanse als niet-Amerikaanse films.

De biopics-data en het pakket VIM zijn al voor je geladen. Tijd voor wat verkennende visualisaties!

Let op: er is een eigendisplay_image()functie gemaakt die de output uit de nieuwste versie van hetVIMpakket teruggeeft. Zorg dat je de sectieHTML Viewer uitklapt.

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Geef de biopics-data door in de dplyr-pipeline.
  • Maak een dummyvariabele is_US_movie die TRUE is als country de string "US" bevat en anders FALSE.
  • Teken een mozaïekdiagram dat de hoeveelheid ontbrekende data in "earnings" laat zien, gesplitst naar "is_US_movie" en "sub_sex". Vergeet niet om variabelenamen als strings door te geven.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Prepare data for plotting and draw a mosaic plot
___ %>%
	# Create a dummy variable for US-produced movies
	mutate(is_US_movie = grepl(___, ___)) %>%
	# Draw mosaic plot
	mosaicMiss(highlight = ___, 
             plotvars = c(___, ___))

# Return plot from latest VIM package - expand the HTML viewer section
display_image()
Code bewerken en uitvoeren