1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

特徴抽出と分析:amzn_cons

今度は、amzn_cons_corp コーパスを使って、別のバイグラム TDM と比較してみます。もちろん、ワードクラウドには異なるフレーズがいくつか現れるはずです。

もう一度、以下のカスタム関数を使って、可視化用のバイグラム特徴量を抽出します。

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

指示

100 XP
  • amzn_cons_corp を TermDocumentMatrix に変換し、バイグラム関数 control = list(tokenize = tokenizer) を組み込んで、amzn_c_tdm を作成します。
  • amzn_c_tdm を行列に変換して、amzn_c_tdm_m を作成します。
  • rowSums() を使って amzn_c_tdm_m から用語頻度を取得し、amzn_c_freq を作成します。
  • names(amzn_c_freq) と値 amzn_c_freq を用いて wordcloud() を作成します。引数 max.words = 25 と color = "red" も指定してください。