1. Învăţa
  2. /
  3. Courses
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

exercise

単語の関連性

予想どおり、デンドログラム全体で似たようなトピックが見られました。ポジティブなコメントに戻り、ワードクラウドに現れた上位のフレーズを確認することにします。tm の findAssocs() 関数を使って、関連語を見つけたいと考えています。長時間労働やワークライフバランスの欠如を知った今、意外な発見がないか確かめましょう。

Instrucţiuni

100 XP

amzn_pros_corp コーパスは、これまで同様にカスタム関数で前処理済みです。

  • amzn_pros_corp と control = list(tokenize = tokenizer) から、amzn_p_tdm という TDM を作成します。
  • amzn_p_tdm を行列に変換して amzn_p_m を作成します。
  • amzn_p_m に rowSums() を適用して amzn_p_freq を作成します。
  • amzn_p_freq に sort() を用い、引数 decreasing = TRUE を指定して term_frequency を作成します。
  • term_frequency[1:5] を使って、最初の 5 つのバイグラムを確認します。
  • 上位語として "fast paced" が出てくるのは意外かもしれません。これは "long hours" に関連するネガティブな意味合いを持つ可能性があるためです。"fast paced" と最も関連する語を確認しましょう。amzn_p_tdm に対して findAssocs() を使い、"fast paced" を 0.2 のカットオフで調べます。