1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶクラスタ分析

Connected

연습 문제

映画クラスタの上位用語

スパース行列を作成できたので、クラスタ中心を計算し、各クラスタの上位3語を出力しましょう。kmeans() 関数で処理できるよう、スパース行列 tfidf_matrix を .todense() メソッドで通常の行列に変換します。続いて、tfidf_vectorizer オブジェクトの .get_feature_names() メソッドで用語リストを取得します。Python の zip() 関数は2つのリストを結合します。

前の演習で作成した tfidf_vectorizer オブジェクトとスパース行列 tfidf_matrix は、この演習でも利用できます。kmeans は SciPy からインポート済みです。

データポイントが多いほど、生成されるクラスタはより明確に定義されます。ただし、その分計算資源が必要になり、この演習の範囲では実行が難しくなります。

지침

100 XP
  • kmeans() 関数でクラスタ中心を計算します。
  • tfidf_vectorizer オブジェクトから用語リストを取得します。
  • 各クラスタの上位3語を出力します。