1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python 中的模型验证

Connected

अभ्यास

欠拟合/过拟合导致的误差

这个糖果数据集非常容易过拟合。只有 85 条观测,如果将其中的 20% 用作测试集,您就会失去许多本可用于建模的关键信息。设想一种情况:大多数巧克力糖果被分到了训练集,而保留样本中很少。模型可能只"看到"巧克力这个因素很关键,却没能发现其他属性也同样重要。在本练习中,您将探索在随机森林模型中使用过多特征(列)如何导致过拟合。

一个「特征」表示在决策树中可以使用的数据列。参数 max_features 用于限制可用特征的数量。

निर्देश 1/3

undefined XP
  • 1

    创建一个包含 25 棵树、random_state 为 1111、且 max_features 为 2 的随机森林模型。阅读打印结果。

  • 2

    将 max_features 设为 11(数据集中的列数)。阅读打印结果。

  • 3

    将 max_features 设为 4。阅读打印结果。