1. Apprendre
  2. /
  3. Cours
  4. /
  5. Prétraitement pour le Machine Learning en Python

Connected

Exercice

Échantillonnage stratifié

Vous savez maintenant que la distribution des étiquettes de classe dans la colonne category_desc du jeu de données volunteer est inégale. Si vous souhaitez entraîner un modèle pour prédire category_desc, vous devez vous assurer qu'il est entraîné sur un échantillon de données représentatif de l'ensemble du jeu de données. L'échantillonnage stratifié est une bonne façon d'y arriver!

Instructions

100 XP
  • Créez un DataFrame de caractéristiques, X, avec toutes les colonnes sauf category_desc.
  • Créez un DataFrame d'étiquettes, y, à partir de la colonne category_desc.
  • Scindez X et y en ensembles d'entraînement et de test, en veillant à ce que la distribution des classes dans les étiquettes soit la même dans les deux ensembles.
  • Affichez les étiquettes et leurs décomptes dans y_train à l'aide de .value_counts().