1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ教師なし学習

Connected

演習

Wikipedia のクラスタリング パート II

前の演習で作成したパイプラインを実際に使ってみましょう。人気のある Wikipedia 記事の tf-idf 単語頻度を格納した配列 articles と、その記事タイトルのリスト titles が与えられています。パイプラインを使って Wikipedia 記事をクラスタリングしてください。

前の演習の解答が読み込まれているため、TruncatedSVD と KMeans を連結した Pipeline pipeline がすでに用意されています。

指示

100 XP
  • pandas を pd としてインポートします。
  • 単語頻度配列 articles にパイプラインを適合させます。
  • クラスタラベルを予測します。
  • 記事タイトルのリスト titles とクラスタラベルを対応づけるため、列に labels と titles を持つ DataFrame df を作成します。これはすでに用意されています。
  • df の .sort_values() メソッドを使って、'label' 列で並べ替え、結果を表示します。
  • 提出して、Wikipedia ページの見事なクラスタリング結果を少し観察してみましょう!