Specifieke statistieken voor één of meer variabelen

Zoals je eerder zag, kun je functies als summary(), psych::describe() of Hmisc::describe() gebruiken om in één keer veel beschrijvende statistieken te krijgen voor één of meer variabelen in een gegevensset. Je hebt ook al losse statistieken berekend in eerdere oefeningen met functies als mean(), median(), sd() en andere.

Het dplyr-pakket biedt de functie summarise(), eventueel gecombineerd met de syntax across(everything(), list()), om meerdere eigen statistieken van interesse tegelijk te berekenen voor één of meer variabelen.

De gegevensset abaloneKeep en het pakket dplyr zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

R voor SAS-gebruikers

Oefeninstructies

Haal samenvattende statistieken op voor shucked weight en whole weight uit de gegevensset abaloneKeep met summary().
Bereken het gemiddelde en de standaarddeviatie van length met de functie summarise() uit het dplyr-pakket. Noem de outputstatistieken respectievelijk mean_length en sd_length voor het gemiddelde en de standaarddeviatie.
Bereken het gemiddelde en de standaarddeviatie van height en diameter met de syntax summarise(across(everything(), list())) uit het dplyr-pakket.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Run summary() for shuckedWeight and wholeWeight
abaloneKeep %>%
  select(___, ___) %>%
  ___

# Get mean and sd for length
abaloneKeep %>%
  ___(___ = mean(___),
      ___ = sd(___))

# Get mean and sd for height and diameter
abaloneKeep %>%
  ___ %>%
  summarise(across(everything(),list(___ = ~ mean(.x),
                                     ___ = ~ sd(.x))))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

R voor SAS-gebruikers

SkillTag.level.beginnerSkillTag.label

4.8+

Begin gratis met de cursus

In dit eerste hoofdstuk maak je kennis met de R-programmeeromgeving. Je leert hoe je hulp vindt, een gegevensset laadt en de functionaliteit uitbreidt met packages. Je gaat aan de slag met de abalone-gegevensset (via de workflow van het pakket dplyr) om beschrijvende statistieken te krijgen en handige visualisaties te maken (met het pakket ggplot2).

Exercise 1: Hulp krijgen en data laden in R Exercise 2: Hulp krijgen Exercise 3: Gegevensset laden en details bekijken Exercise 4: Functionaliteit uitbreiden met packages Exercise 5: Inhoud van de gegevensset en beschrijvende statistieken Exercise 6: Externe gegevensset laden Exercise 7: Inhoud van de gegevensset Exercise 8: Beschrijvende statistiek Exercise 9: Grafische visualisaties Exercise 10: Histogrammen Exercise 11: Boxplots en vioolplots Exercise 12: Spreidingsdiagrammen

Nu je je weg weet in de R-omgeving, verdiept dit hoofdstuk je begrip van R's veelzijdigheid bij het werken met dataobjecten. Je leert hoe je variabelen aanmaakt en wijzigt in de abalone-gegevensset. Met je ggplot2-visualisatievaardigheden ontdek je fouten in de abalone-data en maak je vervolgens een opgeschoonde eindgegevensset die klaar is voor analyse en modellering.

Exercise 1: Objecten – de bouwstenen van R Exercise 2: Data-objecten maken in R Exercise 3: Samengestelde objecttypen maken Exercise 4: Elementen selecteren uit objecten Exercise 5: Bepaal variabelentypen Exercise 6: Elementen selecteren in objecten Exercise 7: Gegevenssets en data-objecten bewerken Exercise 8: Nieuwe variabelen maken Exercise 9: Variabelen hercoderen Exercise 10: Objecttypeconversie Exercise 11: Datakwaliteit en opschonen Exercise 12: Variabelen controleren Exercise 13: Onlogische gewichten Exercise 14: Controleer afmetingsmetingen Exercise 15: Eindgegevensset controleren

Zodra je gegevensset is opgeschoond, is de volgende stap verkennen. In hoofdstuk 3 leer je beschrijvende statistieken berekenen, associaties (bijv. correlaties) tussen variabelen onderzoeken en bivariaat-statistische toetsen uitvoeren (bijv. t-toetsen en chi-kwadraattoetsen). Je maakt ook grafische visualisaties die de bivariaat-associaties en groepvergelijkingstoetsen illustreren.

Exercise 1: Exploratieve data-analyse Exercise 2: Beschrijvende statistiek en functiemasking Exercise 3: Specifieke statistieken voor één of meer variabelen

Huidige oefening

Exercise 4: Samenvattende statistieken per groep Exercise 5: Correlaties en t-toetsen Exercise 6: Bivariate correlaties Exercise 7: Spreidingsdiagrammen Exercise 8: Correlaties per geslacht Exercise 9: Toetsen voor twee groepen Exercise 10: Categorische gegevens: analyseren en visualiseren Exercise 11: Chi-kwadraattoetsen Exercise 12: Mozaïekdiagrammen Exercise 13: Leeftijdscategorieën per schelpgewicht-categorieën

In dit laatste hoofdstuk leer je werken met een van de meest veelzijdige dataobjecttypen in R: een list. Met deze vaardigheden kun je je output van beschrijvende statistieken, associaties en groepvergelijkingen opslaan en bewerken. Je leert ook hoe je ANOVA (analysis of variance) en lineaire regressie in R uitvoert. In de laatste oefeningen zet je al je vaardigheden in om de beste modellen te maken voor het voorspellen van abalone-leeftijden op basis van hun geslacht, grootte en gewichten.

Exercise 1: Werken met uitvoerobjecten Exercise 2: Output van beschrijvende statistieken Exercise 3: Samenvatten van output Exercise 4: Group_by-uitvoer Exercise 5: Werken met lijsten Exercise 6: Hmisc describe-uitvoer Exercise 7: Correlatie-uitvoer Exercise 8: t-toetsen: output Exercise 9: Output van chi-kwadraattoetsen Exercise 10: ANOVA en lineaire modellen Exercise 11: ANOVA Exercise 12: Lineaire regressie Exercise 13: Eindbeoordeling van modellen Exercise 14: Voorspellers van abalone-leeftijd Exercise 15: Beste model per geslacht Exercise 16: Cursusoverzicht en aanbevelingen