Aan de slagGa gratis aan de slag

Variabelen controleren

Nu we meerdere nieuwe variabelen aan abaloneMod hebben toegevoegd, ga je in deze reeks oefeningen de datakwaliteit onderzoeken met samenvattende statistieken en grafische visualisaties.

Je zult ook gevallen (rijen in de abaloneMod-gegevensset) met fouten of onlogische waarden eruit filter()en met de functie dplyr::filter(). Zo zijn er bijvoorbeeld een paar abalones met een height van 0 mm, wat onjuist is door mogelijke typefouten of meetfouten.

De gegevensset abaloneMod is voor je ingeladen, samen met de pakketten dplyr en ggplot2. Nadat je de gevallen hebt gefilterd, maak je een nieuwe aangepaste kopie van de gegevensset met de naam abaloneKeep, met de definitieve gevallen die in volgende lessen voor analyse worden gebruikt.

Deze oefening maakt deel uit van de cursus

R voor SAS-gebruikers

Cursus bekijken

Oefeninstructies

  • Haal samenvattende statistieken op voor abalone-hoogtes.
  • Behoud gevallen met hoogtes groter dan 0 en wijs deze toe aan de nieuwe dataframe abaloneKeep.
  • Maak voor de abalones in abaloneKeep een histogram van de hoogtes; die zouden nu allemaal groter dan 0 moeten zijn.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Pull height from abaloneMod and run summary()
___ %>% 
  ___ %>%
  ___

# Keep cases with height > 0 assign to abaloneKeep
___ <- ___ %>%
  ___

# Make histogram of updated heights in abaloneKeep
ggplot(___) +
  ___
Code bewerken en uitvoeren