1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

特徴抽出と分析: amzn_pros

amzn_pros_corp、amzn_cons_corp、goog_pros_corp、goog_cons_corp はすべて前処理済みです。ここから、調べたい特徴量を抽出していきます。今回は bag of words アプローチを使うので、Amazon のポジティブなレビューコーパス amzn_pros_corp から、バイグラムの TermDocumentMatrix を作成します。これにより、wordcloud() をすばやく作って、Amazon で働くことに人々が前向きに関連づける語句を把握できます。

以下の関数は RWeka を使って 2 語のトークン化を行い、この演習の裏側で利用されます。

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

指示

100 XP
  • amzn_pros_corp から TermDocumentMatrix を作成し、amzn_p_tdm として保存します。語をバイグラムにするため、control = list(tokenize = tokenizer) を必ず指定します。
  • as.matrix() 関数を使って、amzn_p_tdm から amzn_p_tdm_m を作成します。
  • amzn_p_tdm_m から用語頻度を取得し、amzn_p_freq を作成します。
  • wordcloud() を作成します。語には names(amzn_p_freq) を、頻度には amzn_p_freq を使い、見た目の指定として max.words = 25 と color = "blue" を設定します。