Échantillonnage stratifié

Vous savez maintenant que la distribution des étiquettes de classe dans la colonne category_desc du jeu de données volunteer est inégale. Si vous souhaitez entraîner un modèle pour prédire category_desc, vous devez vous assurer qu'il est entraîné sur un échantillon de données représentatif de l'ensemble du jeu de données. L'échantillonnage stratifié est une bonne façon d'y arriver!

Créez un DataFrame de caractéristiques, X, avec toutes les colonnes sauf category_desc.
Créez un DataFrame d'étiquettes, y, à partir de la colonne category_desc.
Scindez X et y en ensembles d'entraînement et de test, en veillant à ce que la distribution des classes dans les étiquettes soit la même dans les deux ensembles.
Affichez les étiquettes et leurs décomptes dans y_train à l'aide de .value_counts().

Exercice

Échantillonnage stratifié

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercice

Instructions

Exercice