Specifieke statistieken voor één of meer variabelen
Zoals je eerder zag, kun je functies als summary(), psych::describe() of Hmisc::describe() gebruiken om in één keer veel beschrijvende statistieken te krijgen voor één of meer variabelen in een gegevensset. Je hebt ook al losse statistieken berekend in eerdere oefeningen met functies als mean(), median(), sd() en andere.
Het dplyr-pakket biedt de functie summarise(), eventueel gecombineerd met de syntax across(everything(), list()), om meerdere eigen statistieken van interesse tegelijk te berekenen voor één of meer variabelen.
De gegevensset abaloneKeep en het pakket dplyr zijn al voor je geladen.
Deze oefening maakt deel uit van de cursus
R voor SAS-gebruikers
Oefeninstructies
- Haal samenvattende statistieken op voor shucked weight en whole weight uit de gegevensset
abaloneKeepmetsummary(). - Bereken het gemiddelde en de standaarddeviatie van length met de functie
summarise()uit hetdplyr-pakket. Noem de outputstatistieken respectievelijkmean_lengthensd_lengthvoor het gemiddelde en de standaarddeviatie. - Bereken het gemiddelde en de standaarddeviatie van height en diameter met de syntax
summarise(across(everything(), list()))uit hetdplyr-pakket.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Run summary() for shuckedWeight and wholeWeight
abaloneKeep %>%
select(___, ___) %>%
___
# Get mean and sd for length
abaloneKeep %>%
___(___ = mean(___),
___ = sd(___))
# Get mean and sd for height and diameter
abaloneKeep %>%
___ %>%
summarise(across(everything(),list(___ = ~ mean(.x),
___ = ~ sd(.x))))