1. 学习
  2. /
  3. 课程
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

练习

単語の共起関係を使う

単語同士の関係を考えるもう一つの方法が、tm パッケージの findAssocs() 関数です。任意の語について、findAssocs() は TDM または DTM 内の他のすべての語との相関を計算します。スコアは 0 から 1 の範囲で、1 は常に同じ文書内に一緒に現れることを意味し、0 に近いほど同じ文書内にほとんど現れないことを意味します。

findAssocs() の計算は文書単位で行われる点に注意してください。つまり、対象の語を含む各「文書」ごとに、その特定の文書内の他の語が関連づけられます。検索語を含まない文書は無視されます。

findAssocs() を使うには、TDM もしくは DTM、検索語、最小相関を渡します。関数は、最小しきい値を満たす、または上回る他のすべての語のリストを返します。

findAssocs(tdm, "word", 0.25)

語彙の多様性のため、最小相関値は比較的低くなることがよくあります。0.10 でも強いペアワイズの語の関連を示す場合があるので、驚かないでください。

コーヒーに関するツイートはすでにクリーニングされ、演習用に tweets_tdm にまとめてあります。ここでは語の関連を検索し、結果を qdap の list_vect2df() で整形し、サンプルスクリプトの ggplot2 コードでプロットを作成します。

说明

100 XP
  • tweets_tdm に対して findAssocs() を実行し、"venti" と関連し、最小しきい値 0.2 を満たす語を見つけて associations を作成します。
  • コンソールに associations を出力して、"venti" に関連する語を確認します。
  • list_vect2df() を呼び出して associations_df を作成します。引数に associations を渡し、col2 を "word"、col3 を "score" に設定します。
  • 例の ggplot2 コードを実行して、関連度のドットプロットを作成します。