1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Rで学ぶSentiment Analysis

Connected

अभ्यास

比較クラウド

この演習では、用語の出現頻度を理解するための一般的な可視化を作成します。具体的には、ポジティブとネガティブの文書を結合した2つの文書から、最も頻出する用語を確認します。先ほど作成した TermDocumentMatrix all_tdm を思い出してください。1000件のレンタルレビューが入っているのではなく、polarity() スコアによって分けられた全レビューを含む2つの文書が格納されています。

通常、TDMは行列に変換すると扱いやすくなります。そこから列名を付け直します。下記のように、代入演算子の左側で colnames() を呼び出すことを思い出してください。

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

変換が終わったら、最もポジティブな単語とネガティブな単語が見えるように、行列を並べ替えます。結論の演習に答えられるよう、これらの用語をよく確認してください。

最後に、comparison.cloud() を使って用語を可視化します。

निर्देश 1/2

undefined XP
    1
    2
  • 事前に読み込まれている all_tdm を、as.matrix() を使って all_tdm_m という行列に変換します。
  • all_tdm_m に対して colnames() を使い、列名を c("positive", "negative") に設定します。
  • order() を all_tdm_m[,1] に適用し、decreasing = TRUE を指定します。
  • パイプ(%>%)を使って並べ替えたTDMの上位10件を確認し、head() の n = 10 を指定します。
  • ネガティブなコメントでも同じ2手順を繰り返します。今度は 2列目 の all_tdm_m[,2] を order() で decreasing = TRUE にして並べ替えます。
  • order_by_neg で all_tdm_m をインデックス指定し、最もネガティブな用語10件を確認します。これを head() にパイプし、n = 10 を指定します。