1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习特征工程

Connected

道练习

统计词频(I)

记录完高层信息后,您就可以开始基于文本的实际内容来创建特征。一个方法是借鉴前面课程处理中类别变量的思路。

  • 对数据集中每个唯一词语创建一列。
  • 对每条记录,统计该词语出现的次数,并将计数填入相应的列中。

这些"计数"列随后可用于训练机器学习模型。

说明

100 XP
  • 从 sklearn.feature_extraction.text 导入 CountVectorizer。
  • 实例化 CountVectorizer,并将其赋给 cv。
  • 将向量化器拟合到 text_clean 列。
  • 打印向量化器生成的特征名称。