特徴抽出と分析: amzn_pros

amzn_pros_corp、amzn_cons_corp、goog_pros_corp、goog_cons_corp はすべて前処理済みです。ここから、調べたい特徴量を抽出していきます。今回は bag of words アプローチを使うので、Amazon のポジティブなレビューコーパス amzn_pros_corp から、バイグラムの TermDocumentMatrix を作成します。これにより、wordcloud() をすばやく作って、Amazon で働くことに人々が前向きに関連づける語句を把握できます。

以下の関数は RWeka を使って 2 語のトークン化を行い、この演習の裏側で利用されます。

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

amzn_pros_corp から TermDocumentMatrix を作成し、amzn_p_tdm として保存します。語をバイグラムにするため、control = list(tokenize = tokenizer) を必ず指定します。
as.matrix() 関数を使って、amzn_p_tdm から amzn_p_tdm_m を作成します。
amzn_p_tdm_m から用語頻度を取得し、amzn_p_freq を作成します。
wordcloud() を作成します。語には names(amzn_p_freq) を、頻度には amzn_p_freq を使い、見た目の指定として max.words = 25 と color = "blue" を設定します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習