映画クラスタの上位用語

スパース行列を作成できたので、クラスタ中心を計算し、各クラスタの上位3語を出力しましょう。kmeans() 関数で処理できるよう、スパース行列 tfidf_matrix を .todense() メソッドで通常の行列に変換します。続いて、tfidf_vectorizer オブジェクトの .get_feature_names() メソッドで用語リストを取得します。Python の zip() 関数は2つのリストを結合します。

前の演習で作成した tfidf_vectorizer オブジェクトとスパース行列 tfidf_matrix は、この演習でも利用できます。kmeans は SciPy からインポート済みです。

データポイントが多いほど、生成されるクラスタはより明確に定義されます。ただし、その分計算資源が必要になり、この演習の範囲では実行が難しくなります。