映画プロットのTF-IDF

ランダムに選ばれた映画のプロットを使って、ドキュメントのクラスタリングを行いましょう。ドキュメントをクラスタリングする前に、不要なノイズ（特殊文字やストップワードなど）を取り除き、TF-IDF によって疎行列に変換する必要があります。

リスト plots に保存された映画プロットに対して TF-IDF を行うために、TfidfVectorizer クラスを使用してください。TfidfVectorizer クラスでは tokenizer として remove_noise() 関数が利用できます。.fit_transform() メソッドは、データを TfidfVectorizer オブジェクトに適合させ、その後 TF-IDF の疎行列を生成します。

注意: .fit_transform() メソッドの実行には数秒かかります。