1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

Exercise

qdapで頻出語を調べる

前処理の細かな手順へのコントロールを多少手放してもよい場合、qdap の freq_terms() を使うと頻出語を素早く取得できます。

この関数はテキスト変数を受け取り、ここでは tweets$text ベクトルを渡します。表示する上位語数は top 引数で、除去するストップワードは stopwords 引数で、含める語の最小文字数は at.least 引数で指定します。qdap には tm とは異なる独自のストップワードリストがあります。今回の演習では、どちらも使って結果を比較してみます。

結果の基本的なプロット作成は簡単です。freq_terms() のオブジェクトに対して plot() を呼ぶだけです。

Instructions 1/2

undefined XP
  • 1
    • tweets$text に対して freq_terms() 関数を使い、frequency を作成します。次の引数を指定してください。
      • 上位10個の用語に限定する。
      • 各用語は少なくとも3文字以上とする。
      • ストップワードの定義には "Top200Words" を使う。
    • frequency オブジェクトに対して plot() を実行して可視化します。前の演習で作成したプロットと比べてみましょう。
  • 2
    • もう一度、tweets$text に対して freq_terms() 関数を使い、frequency を作成します。次の引数を指定してください。
      • 上位10個の用語に限定する。
      • 各用語は少なくとも3文字以上とする。
      • 今回はストップワードの定義に stopwords("english") を使う。
    • frequency の plot() を作成します。先ほどの frequency のプロットと比べてみましょう。ストップワードの基準によって、特定の単語は入れ替わりますか?