1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习特征工程

Connected

道练习

Tf-idf

虽然词频计数对构建模型有用,但出现次数非常多的词可能会让结果产生不理想的偏斜。为了防止这些常见词主导您的模型,可以使用一种归一化方法。在本节中,您将使用在视频中介绍的词频-逆文档频率(Tf-idf)。Tf-idf 的效果是:降低常见词的权重,同时提升那些在多数文档中并不常见的词的权重。

说明

100 XP
  • 从 sklearn.feature_extraction.text 导入 TfidfVectorizer。
  • 实例化 TfidfVectorizer,将特征数量限制为 100,并移除英文停用词。
  • 在一步中对 text_clean 列拟合并应用该向量化器。
  • 创建一个包含词权重的 DataFrame tv_df,并将特征名称作为列名。