1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learningの前処理

Connected

演習

テキストベクトルを探る(その2)

前の演習で作成した return_weights() 関数を使って、テキストベクトルの各ドキュメントから上位の単語を取り出し、単語のインデックスのリストを返し、そのリストを使ってテキストベクトルをそれらの上位単語のみに絞り込みます。

指示

100 XP
  • そのドキュメントで重みが高い単語を返すために、return_weights() を呼び出してください。
  • 返ってきた filter_list に対して set() を呼び出し、重複した番号を取り除いてください。
  • words_to_filter を呼び出し、次のパラメータを渡してください: vocab パラメータには vocab、original_vocab パラメータには tfidf_vec.vocabulary_、vector パラメータには text_tfidf、そして各ドキュメントから重み上位 top_n 3語を取得するために 3 を指定します。
  • 最後に、その filtered_words セットをリストに変換し、テキストベクトルのフィルタとして使ってください。