層化サンプリング

volunteer データセットの category_desc 列にあるクラスラベルの分布が偏っていることがわかりました。category_desc を予測するモデルを学習させたい場合、データ全体を代表するサンプルでモデルを学習する必要があります。層化サンプリングは、そのための有効な方法です！

目的変数 category_desc 以外のすべての列を使って、特徴量の DataFrame X を作成します。
category_desc 列からラベルの DataFrame y を作成します。
X と y を学習用とテスト用に分割し、両方の集合でラベルのクラス分布が同じになるようにします。
.value_counts() を使って、y_train のラベルと件数を表示します。