1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶSentiment Analysis

Connected

演習

Bing の tidy 極性: 白鯨をカウントしてピボットする

この演習では、"bing" レキシコンを使って別の inner_join() を適用します。

その後、テキストを理解するために、dplyr の count() と tidyr の pivot_wider() の両方で結果を操作します。

pivot_wider() 関数は、データを複数の列に展開します。今回の場合、sentiment と対応する n の値は、各行におけるポジティブまたはネガティブな語の出現頻度を表します。pivot_wider() を使うと、たとえ 0 であっても、各行にポジティブとネガティブの両方の値が入るようにデータが変換されます。

指示

100 XP

この演習では、R セッションに、小説『白鯨(Moby Dick)』を含む m_dick_tidy と、前の演習と同様のレキシコン bing が用意されています。

  • m_dick_tidy と bing に対して inner_join() を実行します。
    • これまでと同様に、m_dick_tidy の "term" 列をレキシコンの "word" 列に結合します。
    • 新しいオブジェクト名は moby_lex_words とします。
  • mutate() の中で、document に as.numeric() を適用して等しい index 列を作成します。
  • moby_lex_words を count() に渡し、sentiment, index を指定して moby_count を作成します。
  • moby_count を pivot_wider() にパイプし、names_from は sentiment 列、values_from は n 列、値は values_fill = 0 で埋めて、moby_wide を作成します。
  • 次のパイプでは、arrange を使って index の値で行を並べ替えます