Aan de slagGa gratis aan de slag

Specifieke statistieken voor één of meer variabelen

Zoals je eerder zag, kun je functies als summary(), psych::describe() of Hmisc::describe() gebruiken om in één keer veel beschrijvende statistieken te krijgen voor één of meer variabelen in een gegevensset. Je hebt ook al losse statistieken berekend in eerdere oefeningen met functies als mean(), median(), sd() en andere.

Het dplyr-pakket biedt de functie summarise(), eventueel gecombineerd met de syntax across(everything(), list()), om meerdere eigen statistieken van interesse tegelijk te berekenen voor één of meer variabelen.

De gegevensset abaloneKeep en het pakket dplyr zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

R voor SAS-gebruikers

Cursus bekijken

Oefeninstructies

  • Haal samenvattende statistieken op voor shucked weight en whole weight uit de gegevensset abaloneKeep met summary().
  • Bereken het gemiddelde en de standaarddeviatie van length met de functie summarise() uit het dplyr-pakket. Noem de outputstatistieken respectievelijk mean_length en sd_length voor het gemiddelde en de standaarddeviatie.
  • Bereken het gemiddelde en de standaarddeviatie van height en diameter met de syntax summarise(across(everything(), list())) uit het dplyr-pakket.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Run summary() for shuckedWeight and wholeWeight
abaloneKeep %>%
  select(___, ___) %>%
  ___

# Get mean and sd for length
abaloneKeep %>%
  ___(___ = mean(___),
      ___ = sd(___))

# Get mean and sd for height and diameter
abaloneKeep %>%
  ___ %>%
  summarise(across(everything(),list(___ = ~ mean(.x),
                                     ___ = ~ sd(.x))))
Code bewerken en uitvoeren