1. Lära sig
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ自然言語処理(NLP)

Connected

exercise

商品のレビューの頻度分析

より大きな TechZone の商品レビューのデータセットを使えるようになりました。これまでと同様に、レビューは前処理を行い、BoW 表現 X に変換済みです。ここからは、単語の出現頻度を分析し、データセットで最も一般的な用語を特定しましょう。

分析を助けるために、get_top_ten() というヘルパー関数が用意されています。これは単語のリストとそれに対応するカウントを受け取り、最も頻度の高い10個の単語とそのカウントを返します。

Instruktioner 1 / 2

undefined XP
    1
    2
  • すべてのレビューにわたる各単語の合計回数である word_counts を算出します。
  • vectorizer が学習した一意の words のリストを取得します。