Eindgegevensset controleren
Je hebt inmiddels zes nieuwe variabelen toegevoegd aan de oorspronkelijke abalone-gegevensset, waardoor het aantal kolommen is toegenomen van 9 naar 15. Ook heb je (2+4+2) = 8 gevallen met verschillende meet- of registratiefouten eruit gefilterd, waardoor er 4169 gevallen overblijven.
In deze oefening controleer je deze aantallen door dim() uit te voeren om de afmetingen van de uiteindelijke abaloneKeep-gegevensset te controleren. Je doet ook een paar controles op deze definitieve gegevensset: je bekijkt de samenvattende statistieken van alle variabelen en maakt nog een paar spreidingsdiagrammen om de aannames over gewichten en afmetingen dubbel te checken.
De abaloneKeep-gegevensset en de pakketten dplyr en ggplot2 zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
R voor SAS-gebruikers
Oefeninstructies
- Bepaal de afmetingen van de uiteindelijke
abaloneKeep-gegevensset. - Vraag de samenvattende statistieken op van alle variabelen in
abaloneKeep. - Maak een spreidingsdiagram met
wholeWeightop de x-as enshuckedWeightop de y-as, voeg een referentielijn toe met intercept 0 en helling 1. - Maak een spreidingsdiagram met
diameterop de x-as enlengthop de y-as, voeg een referentielijn toe met intercept 0 en helling 1.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Dimensions of final dataset with samples in abaloneKeep
___
# Get summary statistics of all variables in abaloneKeep
___
# Scatterplot of shuckedWeight by wholeWeight add y=x line
ggplot(___) +
___ +
___
# Scatterplot of length by diameter add y=x line
ggplot(___) +
___ +
___