1. Learn
  2. /
  3. Cursuri
  4. /
  5. Preprocesare pentru Machine Learning în Python

Connected

exercițiu

Eșantionare stratificată

Știi deja că distribuția etichetelor de clasă din coloana category_desc a setului de date volunteer este neuniformă. Dacă vrei să antrenezi un model care să prezică category_desc, trebuie să te asiguri că modelul este antrenat pe un eșantion reprezentativ pentru întregul set de date. Eșantionarea stratificată este o metodă care te ajută să obții exact acest lucru!

Instrucțiuni

100 XP
  • Creează un DataFrame de caracteristici, X, cu toate coloanele, mai puțin category_desc.
  • Creează un DataFrame de etichete, y, din coloana category_desc.
  • Împarte X și y în seturi de antrenament și de testare, asigurându-te că distribuția claselor din etichete este aceeași în ambele seturi.
  • Afișează etichetele și numărul lor de apariții din y_train folosind .value_counts().