距離行列とデンドログラム

用語–文書行列（TDM）にデンドログラムを適用するのは、単語のクラスタリングを行う簡単な方法です。TDM が用意できたら、dist() を呼び出して、行同士の差異（距離）を計算します。

次に、hclust() を使って距離行列の非類似度に基づくクラスタ解析を実行します。最後に、デンドログラムと plot() を使って単語頻度の距離を可視化できます。テキストマイニングでは、デンドログラムから興味深い示唆や単語クラスタが見えてくることがよくあります。

直前の動画で見た年間降水量の表を思い出してください。Cleveland と Portland は降水量が同じなので距離は 0 です。2都市が同じクラスタになり、降水量がはるかに多い New Orleans は単独になるだろうと期待できます。

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

データフレーム rain はワークスペースにあらかじめ読み込まれています。

rain の2列目の値に対して dist() を使い、dist_rain を作成します。
コンソールに dist_rain 行列を出力します。
hclust() を dist_rain に適用してクラスタ解析を行い、hc を作成します。
都市名を追加するために、labels = rain$city を指定して hc オブジェクトを plot() します。