1. Învăţa
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ予測分析入門

Connected

exercise

データ分割

モデルを正しく評価するには、データを学習用とテスト用に分割します。学習用データにはモデルの学習に使うデータが、テスト用データにはモデルの評価に使うデータが入ります。この分割はランダムに行いますが、ターゲットの発生率が低い場合は層化(stratify)して、学習用とテスト用でターゲットの割合が等しくなるようにする必要があります。

この演習では、層化してデータを分割し、学習用とテスト用でターゲット発生率が等しいことを確認します。train_test_split メソッドはすでにインポート済みで、X と y の DataFrame がワークスペースに用意されています。

Instrucţiuni

100 XP
  • train_test_split メソッドを使って、これらの DataFrame を層化して分割してください。学習用とテスト用のサイズを同じにし、ターゲット発生率も等しくなるようにします。
  • 学習用データのターゲット発生率を計算してください。これは、学習用データに含まれるターゲット数を学習用データの観測数で割った値です。
  • テスト用データのターゲット発生率を計算してください。