Mögliche Kombinationen berechnen
Der Data Frame healthcare_cat_df enthält kategoriale Variablen zu Mitarbeitenden in einem Gesundheitsunternehmen und dazu, ob sie das Unternehmen verlassen haben oder nicht. Du nutzt diesen Datensatz, um die Anzahl der Kombinationen der Merkmalsausprägungen zu bestimmen, die im Datensatz vorkommen.
Beim Training eines Machine-Learning-Modells möchtest du für jede Kombination möglichst viele Beobachtungen haben. Die Anzahl der Kombinationen hilft dir daher, eine Untergrenze für die minimale Anzahl an Beobachtungen festzulegen, die du sammeln solltest, um Verzerrungen im Modell zu vermeiden.
Das Paket tidyverse wurde bereits für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Berechne die minimale Anzahl an Beobachtungen, die benötigt wird, um alle Kombinationen der Merkmalsausprägungen in
healthcare_cat_dfabzudecken.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Calculate the minimum number of value combinations
healthcare_cat_df %>%
___(___(___(), ~ ___(unique(.)))) %>%
___()