Mogelijke combinaties berekenen
De data frame healthcare_cat_df bevat categorische variabelen over medewerkers in een zorgbedrijf en of ze het bedrijf hebben verlaten of niet. Je gebruikt deze gegevensset om te bepalen hoeveel combinaties van kenmerkwaarden er in de gegevensset voorkomen.
Bij het trainen van een Machine Learning-model wil je dat je data veel observaties van elke combinatie bevat. Het aantal combinaties helpt daarom als referentie voor het minimale aantal observaties dat je zou moeten verzamelen om vooringenomenheid in je model te voorkomen.
Het pakket tidyverse is voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Bereken het minimale aantal observaties dat nodig is om alle combinaties van de kenmerkwaarden in
healthcare_cat_dfte representeren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the minimum number of value combinations
healthcare_cat_df %>%
___(___(___(), ~ ___(unique(.)))) %>%
___()