比較クラウド

この演習では、用語の出現頻度を理解するための一般的な可視化を作成します。具体的には、ポジティブとネガティブの文書を結合した2つの文書から、最も頻出する用語を確認します。先ほど作成した TermDocumentMatrix all_tdm を思い出してください。1000件のレンタルレビューが入っているのではなく、polarity() スコアによって分けられた全レビューを含む2つの文書が格納されています。

通常、TDMは行列に変換すると扱いやすくなります。そこから列名を付け直します。下記のように、代入演算子の左側で colnames() を呼び出すことを思い出してください。

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

変換が終わったら、最もポジティブな単語とネガティブな単語が見えるように、行列を並べ替えます。結論の演習に答えられるよう、これらの用語をよく確認してください。

最後に、comparison.cloud() を使って用語を可視化します。

事前に読み込まれている all_tdm を、as.matrix() を使って all_tdm_m という行列に変換します。
all_tdm_m に対して colnames() を使い、列名を c("positive", "negative") に設定します。
order() を all_tdm_m[,1] に適用し、decreasing = TRUE を指定します。
パイプ（%>%）を使って並べ替えたTDMの上位10件を確認し、head() の n = 10 を指定します。
ネガティブなコメントでも同じ2手順を繰り返します。今度は 2列目 の all_tdm_m[,2] を order() で decreasing = TRUE にして並べ替えます。
order_by_neg で all_tdm_m をインデックス指定し、最もネガティブな用語10件を確認します。これを head() にパイプし、n = 10 を指定します。

ćwiczenie

比較クラウド

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie