1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的无监督学习

Connected

道练习

Clustering Wikipedia part II

现在是让您在上一个练习中构建的管道发挥作用的时候了!您得到了一个数组 articles,其中包含一些热门 Wikipedia 文章的 tf-idf 词频,以及一个列表 titles,其中是这些文章的标题。请使用您的管道对这些 Wikipedia 文章进行聚类。

上一个练习的参考解答已为您预加载,因此一个将 TruncatedSVD 与 KMeans 串联的 Pipeline pipeline 已可使用。

说明

100 XP
  • 将 pandas 以 pd 的别名导入。
  • 将管道拟合到词频数组 articles。
  • 预测聚类标签。
  • 通过创建包含 labels 和 titles 两列的 DataFrame df,将聚类标签与文章标题列表 titles 对齐。此步骤已为您完成。
  • 使用 df 的 .sort_values() 方法按 'label' 列对 DataFrame 排序,并打印结果。
  • 点击 Submit Answer,花点时间查看您对 Wikipedia 页面出色的聚类结果!