sklearn を使ったクロスバリデーション

第2章で説明したとおり、データセットの過学習はアナリティクスでよくある問題です。モデルがデータに過度に適合してしまい、学習に使ったデータでは高い性能を出す一方で、外部のデータにはうまく一般化できない状態を指します。

第2章で学んだ train/test 分割は、学習データへの過学習を防ぐのに有効ですが、ハイパーパラメータチューニングを行うと、テストデータに合わせ込みすぎて過学習する可能性があります。テストセットで最良の予測結果を得るようにモデルを調整するからです。そこで、異なるテストセットでモデルを検証することが推奨されます。K-fold クロスバリデーションはこの目的に適しています。