1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶクラスタ分析

Connected

Exercise

映画プロットのTF-IDF

ランダムに選ばれた映画のプロットを使って、ドキュメントのクラスタリングを行いましょう。ドキュメントをクラスタリングする前に、不要なノイズ(特殊文字やストップワードなど)を取り除き、TF-IDF によって疎行列に変換する必要があります。

リスト plots に保存された映画プロットに対して TF-IDF を行うために、TfidfVectorizer クラスを使用してください。TfidfVectorizer クラスでは tokenizer として remove_noise() 関数が利用できます。.fit_transform() メソッドは、データを TfidfVectorizer オブジェクトに適合させ、その後 TF-IDF の疎行列を生成します。

注意: .fit_transform() メソッドの実行には数秒かかります。

Instrukcje

100 XP
  • sklearn から TfidfVectorizer クラスをインポートします。
  • 最小頻度 0.1、最大頻度 0.75、最大特徴量数 50 で TfidfVectorizer クラスを初期化します。
  • 初期化した TfidfVectorizer クラスに対して、リスト plots を使って fit_transform() メソッドを実行します。