1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python によるモデル検証

Connected

演習

アンダーフィット/オーバーフィットによる誤差

このキャンディのデータセットはオーバーフィットが起きやすいです。観測が85件しかないため、20%をテスト用に回すと、モデリングに使える重要なデータが大きく減ってしまいます。たとえば、チョコレート系のキャンディの大半が訓練データに偏り、保留サンプルにはほとんど含まれない状況を想像してください。モデルはチョコレートが重要だと「だけ」判断してしまい、他の属性の重要性を見落とすかもしれません。この演習では、ランダムフォレストモデルで特徴量(列)を多く使いすぎるとオーバーフィットにつながることを確認します。

ここでいう「特徴量」は、決定木で使用されるデータの列を表します。パラメータmax_featuresは利用可能な特徴量の数を制限します。

指示1 / 3

undefined XP
  • 1

    木を25本、random_stateを1111、max_featuresを2に設定したランダムフォレストモデルを作成してください。表示されるprint文を読みましょう。

  • 2

    max_featuresを11(データセットの列数)に設定してください。表示されるprint文を読みましょう。

  • 3

    max_featuresを4に設定してください。表示されるprint文を読みましょう。