学習データのアンダーサンプリング

ここでは、Pandas を使って数行のコードで学習用データをアンダーサンプリングしてみます。アンダーサンプリングが終わったら、loan_status の値の件数を確認して結果を検証しましょう。

X_y_train、count_nondefault、count_default はすでにワークスペースに読み込まれています。これらは次のコードで作成されています。

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

元の学習データに対する .value_counts() は自動的に表示されます。

不履行でないデータと不履行データの集合を作成し、それぞれ nondefaults と defaults に保存します。
nondefaults を count_default と同じ件数にサンプリングし、nondefaults_under に保存します。
.concat() を使って nondefaults と defaults を連結し、X_y_train_under に保存します。
新しいデータセットに対して、loan status の .value_counts() を表示します。