1. 学习
  2. /
  3. 课程
  4. /
  5. HRアナリティクス:Pythonで従業員離職を予測する

Connected

练习

従業員データの分割

データセットの過学習は分析でよく起こる問題です。これは、モデルが作成に用いたデータでは良く動く一方で、その外では汎化できない状態を指します。

この汎化性能を確保するために、学習用とテスト用にデータを分割(train/test split)します。学習用サンプルでモデルを作り、その後テストサンプルで試します。

この演習では、target と features をそれぞれ 75%/25% の割合で学習用とテスト用に分割します。

说明

100 XP
  • sklearn.model_selection モジュールから train_test_split をインポートします
  • train_test_split() を使ってデータセットを学習用セットとテスト用セットに分割します
  • 観測データの 25% をテスト用セットに割り当てます