1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习预处理

Connected

道练习

分层抽样

您已经知道,volunteer 数据集的 category_desc 列中的类别标签分布不均衡。如果您想训练一个模型来预测 category_desc,需要确保模型基于能代表整个数据集的数据样本进行训练。分层抽样正是实现这一点的方法!

说明

100 XP
  • 创建特征 DataFrame X,包含除 category_desc 外的所有列。
  • 从 category_desc 列创建标签 DataFrame y。
  • 将 X 和 y 划分为训练集和测试集,并确保两个集合中的标签类别分布一致。
  • 使用 .value_counts() 打印 y_train 中的标签及其数量。