Class imbalance
In the volunteer dataset, you're thinking about trying to predict the category_desc variable using the other features in the dataset. First, though, you need to know what the class distribution (and imbalance) is for that label.
Which descriptions occur less than 50 times in the volunteer dataset?
Deze oefening maakt deel uit van de cursus
Preprocessing for Machine Learning in Python
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen