1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶ教師なし学習

Connected

연습 문제

tf-idf の単語頻度配列

この演習では、サンプルの文書コレクションに対して tf-idf の単語頻度配列を作成します。これには sklearn の TfidfVectorizer を使用します。TfidfVectorizer は文書のリストを単語頻度配列に変換し、csr_matrix として出力します。ほかの sklearn オブジェクトと同様に、fit() と transform() メソッドを持ちます。

ペットに関するサンプル文書のリスト documents が与えられています。

지침

100 XP
  • sklearn.feature_extraction.text から TfidfVectorizer をインポートします。
  • tfidf という名前の TfidfVectorizer インスタンスを作成します。
  • tfidf の .fit_transform() メソッドを documents に適用し、結果を csr_mat に代入します。これは csr_matrix 形式の単語頻度配列です。
  • .toarray() メソッドを呼び出して csr_mat を確認し、結果を出力します。これはすでに用意されています。
  • 配列の列は単語に対応します。.get_feature_names_out() メソッドを tfidf に対して呼び出し、結果を words に代入して単語の一覧を取得します。