qdapで頻出語を調べる

前処理の細かな手順へのコントロールを多少手放してもよい場合、qdap の freq_terms() を使うと頻出語を素早く取得できます。

この関数はテキスト変数を受け取り、ここでは tweets$text ベクトルを渡します。表示する上位語数は top 引数で、除去するストップワードは stopwords 引数で、含める語の最小文字数は at.least 引数で指定します。qdap には tm とは異なる独自のストップワードリストがあります。今回の演習では、どちらも使って結果を比較してみます。

結果の基本的なプロット作成は簡単です。freq_terms() のオブジェクトに対して plot() を呼ぶだけです。

1
- tweets$text に対して freq_terms() 関数を使い、frequency を作成します。次の引数を指定してください。
  
  上位10個の用語に限定する。
  
  各用語は少なくとも3文字以上とする。
  
  ストップワードの定義には "Top200Words" を使う。
- frequency オブジェクトに対して plot() を実行して可視化します。前の演習で作成したプロットと比べてみましょう。

2
- もう一度、tweets$text に対して freq_terms() 関数を使い、frequency を作成します。次の引数を指定してください。
  
  上位10個の用語に限定する。
  
  各用語は少なくとも3文字以上とする。
  
  今回はストップワードの定義に stopwords("english") を使う。
- frequency の plot() を作成します。先ほどの frequency のプロットと比べてみましょう。ストップワードの基準によって、特定の単語は入れ替わりますか？