1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习预处理

Connected

道练习

探索文本向量,第 2 部分

使用您在上一个练习中编写的 return_weights() 函数,提取文本向量中每个文档的最高权重词,返回词索引的列表,并用该列表将文本向量过滤到这些最高权重词。

说明

100 XP
  • 调用 return_weights(),返回该文档的最高权重词。
  • 对返回的 filter_list 调用 set(),以去除重复的数字。
  • 调用 words_to_filter,并传入以下参数:vocab 作为 vocab 参数,tfidf_vec.vocabulary_ 作为 original_vocab 参数,text_tfidf 作为 vector 参数,以及 3 以从每个文档中获取 top_n 为 3 的最高权重词。
  • 最后,将该 filtered_words 集合转换为列表,以作为文本向量的过滤器。