テキストベクトルを探る（パート1）

先ほど学んだテキストベクトルの探索手法を、volunteer データセットの title の tf/idf ベクトルで発展させましょう。テキストベクトル探索の第1部では、スライドで紹介した関数に機能を追加します。まずはその関数で数値のリストを返すようにします。次の演習では、すべてのドキュメントを横断して上位の単語を集めて抽出する別の関数を書き、そのリストを使って text_tfidf ベクトルをフィルタリングします。

tfidf_vec.vocabulary_ 用に original_vocab、さらに top_n というパラメータを追加します。
zip したディクショナリに対して pd.Series() を呼び出します。こうすると操作しやすくなります。
.sort_values() 関数で Series を並べ替え、インデックスをスライスして上位 top_n 語を取得します。
関数を呼び出し、original_vocab=tfidf_vec.vocabulary_ を指定し、9 行目を取得するために vector_index=8 を指定し、上位 3 語を取得するために top_n=3 を指定します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習