Variabelen controleren
Nu we meerdere nieuwe variabelen aan abaloneMod hebben toegevoegd, ga je in deze reeks oefeningen de datakwaliteit onderzoeken met samenvattende statistieken en grafische visualisaties.
Je zult ook gevallen (rijen in de abaloneMod-gegevensset) met fouten of onlogische waarden eruit filter()en met de functie dplyr::filter(). Zo zijn er bijvoorbeeld een paar abalones met een height van 0 mm, wat onjuist is door mogelijke typefouten of meetfouten.
De gegevensset abaloneMod is voor je ingeladen, samen met de pakketten dplyr en ggplot2. Nadat je de gevallen hebt gefilterd, maak je een nieuwe aangepaste kopie van de gegevensset met de naam abaloneKeep, met de definitieve gevallen die in volgende lessen voor analyse worden gebruikt.
Deze oefening maakt deel uit van de cursus
R voor SAS-gebruikers
Oefeninstructies
- Haal samenvattende statistieken op voor abalone-hoogtes.
- Behoud gevallen met hoogtes groter dan 0 en wijs deze toe aan de nieuwe dataframe
abaloneKeep. - Maak voor de abalones in
abaloneKeepeen histogram van de hoogtes; die zouden nu allemaal groter dan 0 moeten zijn.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Pull height from abaloneMod and run summary()
___ %>%
___ %>%
___
# Keep cases with height > 0 assign to abaloneKeep
___ <- ___ %>%
___
# Make histogram of updated heights in abaloneKeep
ggplot(___) +
___