1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习预处理

Connected

道练习

探索文本向量,第 1 部分

让我们在刚学到的文本向量探索方法上继续深入,使用 volunteer 数据集的 title tf/idf 向量。在这一部分中,我们将基于幻灯片里的那个函数进行扩展。我们会让该函数返回一个数字列表。在下一个练习中,您将编写另一个函数,用于汇总所有文档中的高频词,提取出来,然后用这份列表来筛选 text_tfidf 向量。

说明

100 XP
  • 添加名为 original_vocab 和 top_n 的参数,其中 original_vocab 对应 tfidf_vec.vocabulary_。
  • 对打包后的字典调用 pd.Series(),这样更便于后续操作。
  • 使用 .sort_values() 对 Series 排序,并将索引切片到前 top_n 个词。
  • 调用该函数,设置 original_vocab=tfidf_vec.vocabulary_,设置 vector_index=8(获取第 9 行),并设置 top_n=3(获取权重最高的 3 个词)。