1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

演習

ロジスティック回帰によるベースライン分類器

直近の2つのレッスンでは、Machine Learningの面接において特徴量選択がいかに重要かを学びました。面接でよく問われるもう一つのテーマが特徴量エンジニアリングで、モデル性能の向上にどう役立つかという点です。

この演習では、Chapter 1のloan_dataデータセットに対して新しい特徴量を作成し、特徴量エンジニアリングの前後でロジスティック回帰モデルの正解率を比較します。テストラベルと、目的変数Loan Statusの予測値を比較して評価します。

必要なパッケージはすべてインポート済みです:matplotlib.pyplotをplt、seabornをsns、sklearn.linear_modelのLogisticRegression、sklearn.model_selectionのtrain_test_split、そしてsklearn.metricsのaccuracy_score。

特徴量エンジニアリングはモデリング前の前処理ステップとして位置づけられます。 Machine learning pipeline

指示1 / 4

undefined XP
  • 1
    • 目的変数Loan Statusをyとしてloan_dataにロジスティック回帰を学習・予測し、学習済みモデルの正解率を評価してください。
  • 2
    • Annual Incomeを月額に変換し、Monthly Debtをmonthly_incomeで割った比率を算出してdti_ratioに保存してください。
  • 3
    • 目的変数を数値に変換し、カテゴリ特徴量はダミー変数に置き換えてください。
  • 4
    • loans_dtiでロジスティック回帰を学習・予測し、学習済みモデルの正解率を評価してください。