1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで挑むKaggleコンペティション

Connected

演習

層化K-Fold

ご覧のとおり、ランダムに分割すると各フォールド間で目的変数の分布がかなり異なります。今回のコンペでは致命的ではありませんが、目的変数に大きな不均衡がある分類コンペでは問題になる可能性があります。

これを防ぐため、目的変数で層化する層化K-Fold法を実装してみましょう。train DataFrame はすでにワークスペースに用意されています。

指示

100 XP
  • 3 分割でシャッフルありの StratifiedKFold オブジェクトを作成します。
  • str_kf オブジェクトを使って各分割をループします。層化は "interest_level" 列に基づきます。
  • 各分割で、train_index と test_index を使って訓練フォールドとテストフォールドを選択します。