1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ次元削減

Connected

演習

学習用データとテスト用データへの分割

この章でも ANSUR データセットを使って作業を続けます。モデルを構築する前に、まず予測したい特徴量を決める必要があります。ここでは性別を予測します。

データセットからこの特徴量を含む列を取り出し、その後データを学習用とテスト用に分割します。学習用データはモデルの学習に、テスト用データは未知データでの性能確認に使います。

ansur_df はあらかじめ読み込まれています。

指示

100 XP
  • sklearn.model_selection から train_test_split 関数をインポートします。
  • 'Gender' 列を y に代入します。
  • DataFrame から 'Gender' 列を削除し、その結果を X に代入します。
  • テストサイズを 30% に設定し、学習 70%/テスト 30% に分割します。