1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

Exercises

学習用/テスト用の分布

Machine Learning の面接では、学習データとテストデータを扱うことがほぼ確実にあります。前に説明したとおり、学習用とテスト用のデータセットで分布が異なると、モデル性能が低下する可能性があります。

この演習では、sklearn.model_selection の関数に加えて、seaborn と matplotlib.pyplot を使い、loan_data を学習用セットとテスト用セットに分割し、分布を可視化して差異がないかを確認します。

seaborn と matplotlib.pyplot はすでにワークスペースにインポート済みで、それぞれ sns と plt という別名が割り当てられています。

パイプラインには今回、新たに Train/Test split が含まれます。

Machine learning pipeline

คำแนะนำ

100 XP
  • loan_data を、Credit Score と Annual Income の特徴量、そして目的変数 Loan Status の順番でサブセット化します。
  • loan_data を 80/20 で分割し、loan_data_subset に代入します。
  • trainingSet と testSet(この順番)について、目的変数 Loan Status を hue 引数に指定して pairplot を作成します。