Wikipedia のクラスタリングパート I

動画で見たように、TruncatedSVD は csr_matrix 形式の疎行列（単語頻度行列など）に対して PCA を実行できます。TruncatedSVD と k-means の知識を組み合わせて、Wikipedia の人気ページをクラスタリングしてみましょう。この演習では、パイプラインを構築します。次の演習で、いくつかの Wikipedia 記事の単語頻度行列に適用します。

TruncatedSVD の後に KMeans を続けた Pipeline オブジェクトを作成してください。（今回は単語頻度行列をあらかじめ用意してあるため、TfidfVectorizer は不要です。）

使用する Wikipedia データセットはこちらから取得しました。

次をインポートします:
- sklearn.decomposition から TruncatedSVD。
- sklearn.cluster から KMeans。
- sklearn.pipeline から make_pipeline。
n_components=50 を指定して、svd という名前の TruncatedSVD インスタンスを作成します。
n_clusters=6 を指定して、kmeans という名前の KMeans インスタンスを作成します。
svd と kmeans から成る pipeline という名前のパイプラインを作成します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習