1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的无监督学习

Connected

道练习

tf-idf 词频数组

在本练习中,您将为一个示例文档集合创建一个 tf-idf 词频数组。请使用 sklearn 中的 TfidfVectorizer。它会将文档列表转换为词频数组,并以 csr_matrix 的形式输出。它与其他 sklearn 对象一样,具有 fit() 和 transform() 方法。

您将得到一个关于宠物的示例文档列表 documents。

说明

100 XP
  • 从 sklearn.feature_extraction.text 导入 TfidfVectorizer。
  • 创建一个名为 tfidf 的 TfidfVectorizer 实例。
  • 将 tfidf 的 .fit_transform() 方法应用到 documents,并将结果赋给 csr_mat。这是一个以 csr_matrix 格式表示的词频数组。
  • 通过调用其 .toarray() 方法并打印结果来查看 csr_mat。此步骤已为您完成。
  • 数组的列对应词语。通过调用 tfidf 的 .get_feature_names_out() 方法获取词语列表,并将结果赋给 words。