単語の関連性

予想どおり、デンドログラム全体で似たようなトピックが見られました。ポジティブなコメントに戻り、ワードクラウドに現れた上位のフレーズを確認することにします。tm の findAssocs() 関数を使って、関連語を見つけたいと考えています。長時間労働やワークライフバランスの欠如を知った今、意外な発見がないか確かめましょう。

amzn_pros_corp コーパスは、これまで同様にカスタム関数で前処理済みです。

amzn_pros_corp と control = list(tokenize = tokenizer) から、amzn_p_tdm という TDM を作成します。
amzn_p_tdm を行列に変換して amzn_p_m を作成します。
amzn_p_m に rowSums() を適用して amzn_p_freq を作成します。
amzn_p_freq に sort() を用い、引数 decreasing = TRUE を指定して term_frequency を作成します。
term_frequency[1:5] を使って、最初の 5 つのバイグラムを確認します。
上位語として "fast paced" が出てくるのは意外かもしれません。これは "long hours" に関連するネガティブな意味合いを持つ可能性があるためです。"fast paced" と最も関連する語を確認しましょう。amzn_p_tdm に対して findAssocs() を使い、"fast paced" を 0.2 のカットオフで調べます。

演習

単語の関連性

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習