1. Învăţa
  2. /
  3. Courses
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

exercise

amzn_cons 樹形図

レビューから、長時間労働やワークライフバランスの悪さが強く示唆されているようです。簡単なクラスタリング手法として、階層的クラスタリングを実行し、これらのフレーズのつながりを確認するために樹形図を作成しましょう。

Instrucţiuni

100 XP
  • amzn_cons_corp を使い、control = list(tokenize = tokenizer) を指定して、TermDocumentMatrix として amzn_c_tdm を作成します。
  • amzn_c_tdm をコンソールに出力します。
  • removeSparseTerms() 関数を amzn_c_tdm に適用し、sparse 引数を .993 にして amzn_c_tdm2 を作成します。
  • 距離行列 dist(amzn_c_tdm2) を hclust() 関数の中に入れ子にして、階層的クラスタオブジェクト hc を作成します。あわせて hclust() 関数に method = "complete" も渡してください。
  • hc をプロットし、クラスタ化されたバイグラムを確認して、Amazon の cons セクションにある概念がどのように結論につながるかを見てみましょう。