1. Aprende
  2. /
  3. Cursos
  4. /
  5. Pythonで学ぶMachine Learningの前処理

Connected

Ejercicio

層化サンプリング

volunteer データセットの category_desc 列にあるクラスラベルの分布が偏っていることがわかりました。category_desc を予測するモデルを学習させたい場合、データ全体を代表するサンプルでモデルを学習する必要があります。層化サンプリングは、そのための有効な方法です!

Instrucciones

100 XP
  • 目的変数 category_desc 以外のすべての列を使って、特徴量の DataFrame X を作成します。
  • category_desc 列からラベルの DataFrame y を作成します。
  • X と y を学習用とテスト用に分割し、両方の集合でラベルのクラス分布が同じになるようにします。
  • .value_counts() を使って、y_train のラベルと件数を表示します。