Aan de slagGa gratis aan de slag

Eindgegevensset controleren

Je hebt inmiddels zes nieuwe variabelen toegevoegd aan de oorspronkelijke abalone-gegevensset, waardoor het aantal kolommen is toegenomen van 9 naar 15. Ook heb je (2+4+2) = 8 gevallen met verschillende meet- of registratiefouten eruit gefilterd, waardoor er 4169 gevallen overblijven.

In deze oefening controleer je deze aantallen door dim() uit te voeren om de afmetingen van de uiteindelijke abaloneKeep-gegevensset te controleren. Je doet ook een paar controles op deze definitieve gegevensset: je bekijkt de samenvattende statistieken van alle variabelen en maakt nog een paar spreidingsdiagrammen om de aannames over gewichten en afmetingen dubbel te checken.

De abaloneKeep-gegevensset en de pakketten dplyr en ggplot2 zijn alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

R voor SAS-gebruikers

Cursus bekijken

Oefeninstructies

  • Bepaal de afmetingen van de uiteindelijke abaloneKeep-gegevensset.
  • Vraag de samenvattende statistieken op van alle variabelen in abaloneKeep.
  • Maak een spreidingsdiagram met wholeWeight op de x-as en shuckedWeight op de y-as, voeg een referentielijn toe met intercept 0 en helling 1.
  • Maak een spreidingsdiagram met diameter op de x-as en length op de y-as, voeg een referentielijn toe met intercept 0 en helling 1.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Dimensions of final dataset with samples in abaloneKeep
___

# Get summary statistics of all variables in abaloneKeep
___

# Scatterplot of shuckedWeight by wholeWeight add y=x line
ggplot(___) +
  ___ +
  ___

# Scatterplot of length by diameter add y=x line
ggplot(___) +
  ___ +
  ___
Code bewerken en uitvoeren