1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的无监督学习

Connected

道练习

聚类 Wikipedia(第一部分)

您在视频中看到,TruncatedSVD 能够对 csr_matrix 格式的稀疏数组(如词频数组)执行 PCA。请结合您对 TruncatedSVD 和 k-means 的了解,对一些热门的 Wikipedia 页面进行聚类。本练习中,请先构建管道。在下一练习中,您将把它应用到若干 Wikipedia 文章的词频数组上。

创建一个由 TruncatedSVD 和 KMeans 组成的 Pipeline 对象。(这一次,我们已经为您预先计算好了词频矩阵,因此无需使用 TfidfVectorizer。)

您将使用的 Wikipedia 数据集来自于此处:here。

说明

100 XP
  • 导入:
    • 从 sklearn.decomposition 导入 TruncatedSVD。
    • 从 sklearn.cluster 导入 KMeans。
    • 从 sklearn.pipeline 导入 make_pipeline。
  • 创建名为 svd 的 TruncatedSVD 实例,设置 n_components=50。
  • 创建名为 kmeans 的 KMeans 实例,设置 n_clusters=6。
  • 创建名为 pipeline 的管道,由 svd 和 kmeans 组成。