1. Learn
  2. /
  3. Kurser
  4. /
  5. Förbehandling för maskininlärning i Python

Connected

övning

Stratifierat urval

Du vet nu att fördelningen av klassetiketter i kolumnen category_desc i datamängden volunteer är ojämn. Om du vill träna en modell för att förutsäga category_desc behöver du se till att modellen tränas på ett urval som är representativt för hela datamängden. Stratifierat urval är ett sätt att uppnå detta!

Instruktioner

100 XP
  • Skapa en DataFrame med särdrag, X, som innehåller alla kolumner utom category_desc.
  • Skapa en DataFrame med etiketter, y, från kolumnen category_desc.
  • Dela upp X och y i tränings- och testmängder och se till att klassfördelningen i etiketterna är densamma i båda mängderna.
  • Skriv ut etiketterna och antalen i y_train med .value_counts().