1. Aprende
  2. /
  3. Cursos
  4. /
  5. Pythonで学ぶクレジットリスクモデリング

Connected

Ejercicio

学習データのアンダーサンプリング

ここでは、Pandas を使って数行のコードで学習用データをアンダーサンプリングしてみます。アンダーサンプリングが終わったら、loan_status の値の件数を確認して結果を検証しましょう。

X_y_train、count_nondefault、count_default はすでにワークスペースに読み込まれています。これらは次のコードで作成されています。

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

元の学習データに対する .value_counts() は自動的に表示されます。

Instrucciones

100 XP
  • 不履行でないデータと不履行データの集合を作成し、それぞれ nondefaults と defaults に保存します。
  • nondefaults を count_default と同じ件数にサンプリングし、nondefaults_under に保存します。
  • .concat() を使って nondefaults と defaults を連結し、X_y_train_under に保存します。
  • 新しいデータセットに対して、loan status の .value_counts() を表示します。