シンプルなワードクラウド

そろそろコーヒーの飲み過ぎかもしれません。それに、上位の単語として「shop」「morning」「drinking」などが並ぶだけでは、あまり洞察は得られませんよね。

ここまで来たお祝いに、別の1000件のツイートに挑戦してみましょう。今のところ、それらに共通する点はお伝えしませんが、ワードクラウドを使って推測できるか見てみましょう。ツイートの用語頻度はすでにワークスペースに読み込まれています。

ワードクラウドは用語の可視化です。ワードクラウドでは、サイズが頻度に応じて拡大縮小され、場合によっては色が別の指標を示すこともあります。ここではシンプルに、サイズは各単語の頻度に対応し、色は1色のみを使います。

動画で見たように、wordcloud() 関数は次のように使います。

wordcloud(words, frequencies, max.words = 500, colors = "blue")

テキストマイニングの分析では、シンプルなワードクラウドがよく使われます。実のところ多用されがちですが、テキスト全体を素早く把握するには今でも有用です！

term_frequency はワークスペースに読み込まれています。

wordcloud パッケージを読み込みます。
term_frequency の先頭10件を出力します。
term_frequency に対して names() を使って用語を抽出し、文字列ベクトルを terms_vec という名前で作成します。
terms_vec を単語、term_frequency を値として wordcloud() を作成します。パラメータとして max.words = 50 と colors = "red" を追加します。

演習