1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

Exercise

共通の単語を見つける

複数のドキュメントに共通する単語を可視化したいとします。これは commonality.cloud() を使って実現できます。

コーヒーとシャルドネの各コーパスは、多数の個別ツイートで構成されています。コーヒーのツイートを1つのドキュメントとして扱い、シャルドネも同様にするには、各コーパス内のすべてのツイートを paste() で collapse = " " のパラメータと一緒に結合します。これにより、すべてのツイートが(スペース区切りで)1つのベクトルに折りたたまれます。その後、2つの折りたたまれたドキュメントを含む1つのベクトルを作成できます。

a_single_string <- paste(a_character_vector, collapse = " ")

これらの手順が終わったら、これまでと同じやり方で、all_tweets オブジェクトを VectorSource に基づいて VCorpus() を作成できます。

Instructions

100 XP
  • coffee_tweets$text に対して collapse = " " を指定して paste() を使い、all_coffee を作成します。
  • chardonnay_tweets$text に対して collapse = " " を指定して paste() を使い、all_chardonnay を作成します。
  • c() を使って all_coffee と all_chardonnay を結合し、all_tweets を作成します。最初の要素は all_coffee にしてください。
  • all_tweets を VectorSource() で変換します。
  • all_tweets に対して VCorpus() を使い、all_corpus を作成します。