1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ教師なし学習

Connected

演習

Wikipedia のクラスタリング パート I

動画で見たように、TruncatedSVD は csr_matrix 形式の疎行列(単語頻度行列など)に対して PCA を実行できます。TruncatedSVD と k-means の知識を組み合わせて、Wikipedia の人気ページをクラスタリングしてみましょう。この演習では、パイプラインを構築します。次の演習で、いくつかの Wikipedia 記事の単語頻度行列に適用します。

TruncatedSVD の後に KMeans を続けた Pipeline オブジェクトを作成してください。(今回は単語頻度行列をあらかじめ用意してあるため、TfidfVectorizer は不要です。)

使用する Wikipedia データセットはこちらから取得しました。

指示

100 XP
  • 次をインポートします:
    • sklearn.decomposition から TruncatedSVD。
    • sklearn.cluster から KMeans。
    • sklearn.pipeline から make_pipeline。
  • n_components=50 を指定して、svd という名前の TruncatedSVD インスタンスを作成します。
  • n_clusters=6 を指定して、kmeans という名前の KMeans インスタンスを作成します。
  • svd と kmeans から成る pipeline という名前のパイプラインを作成します。