1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

演習

リサンプリング手法

前の演習では、クラス不均衡が混同行列の結果にどのような影響を与えるかを確認しました。この演習では、loan_data のようなクラス不均衡を含むデータセットに対して、別のリサンプリング方法を使うと結果がどう変わるかを確かめるため、リサンプリング手法を練習します。sklearn の resample() 関数を使うと、多数派クラスの行数に合わせることをアップサンプリング、少数派クラスの行数に合わせることをダウンサンプリングと呼びます。

loan_data のアップサンプリング版とダウンサンプリング版の両方を作成し、それぞれにロジスティック回帰を適用して性能を評価します。学習データとそのラベルは、deny が少数派クラス、approve が多数派クラスになるようにサブセット化されています。

予測用の学習/テスト分割済みオブジェクトは、演習で使用できるように X_test としてワークスペースに保存されています。

指示1 / 3

undefined XP
  • 1
    • 少数派クラスを多数派クラスの長さにアップサンプリングして連結します(コード済み)。
    • 多数派クラスを少数派クラスの長さにダウンサンプリングして連結します(コード済み)。
  • 2
    • アップサンプリング後の特徴行列と目的変数配列を作成します。
    • ロジスティック回帰モデルをインスタンス化し、学習して、X_test で予測します。
    • 評価指標を出力します。
  • 3
    • ダウンサンプリング後の特徴行列と目的変数配列を作成します。
    • ロジスティック回帰モデルをインスタンス化し、学習して、X_test で予測します。
    • 評価指標を出力します。