1. Учиться
  2. /
  3. Courses
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

Exercise

バイグラムはワードクラウドにどう影響しますか?

バイグラムの DTM を作成できたので、それを調べてワードクラウドを作り直してみましょう。新しいトークン化方法は、行列だけでなく、その行列に基づく可視化やモデリングにも影響します。

シャルドネのワードクラウドでは「Marvin」と「Gaye」が別々の語として出てきたのを覚えていますか? バイグラムを使うと、すべての 2 語の組み合わせをトークン化します。この演習でワードクラウドがどう変わるか観察しましょう。

この演習では stringr の str_subset を使います。正規表現については他の DataCamp コースで詳しく扱っています。参考までに、正規表現の ^ は、この演習のバイグラム内で「文字列の先頭位置」にマッチします。

Инструкции

100 XP

シャルドネに関するツイートはクレンジング済みで、bigram_dtm という DTM にまとめられています。

  • bigram_dtm を行列に変換して bigram_dtm_m を作成します。
  • bigram_dtm_m に colSums() を適用して語の出現頻度からなるオブジェクト freq を作成します。
  • names(freq) で語の組み合わせの文字ベクトルを取り出し、bi_words に代入します。
  • bi_words を str_subset() に、マッチパターン "^marvin" とともに渡して、"marvin" で始まるすべてのバイグラムを確認します。
  • wordcloud() をシンプルに描画し、bi_words、freq、max.words = 15 を関数に渡します。