MulaiMulai sekarang secara gratis

Matriks jarak dan dendrogram

Cara sederhana untuk melakukan analisis klaster kata adalah dengan dendrogram pada term-document matrix Anda. Setelah memiliki TDM, Anda dapat memanggil dist() untuk menghitung perbedaan antara setiap baris matriks.

Selanjutnya, panggil hclust() untuk melakukan analisis klaster pada ketakmiripan dari matriks jarak. Terakhir, Anda dapat memvisualisasikan jarak frekuensi kata menggunakan dendrogram dan plot(). Sering kali dalam text mining, Anda dapat menemukan wawasan menarik atau klaster kata berdasarkan dendrogram.

Pertimbangkan tabel curah hujan tahunan yang Anda lihat di video sebelumnya. Cleveland dan Portland memiliki jumlah curah hujan yang sama, sehingga jaraknya 0. Anda mungkin memperkirakan kedua kota tersebut membentuk satu klaster dan New Orleans terpisah sendiri karena mendapatkan hujan jauh lebih banyak.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

Data frame rain telah dimuat sebelumnya di workspace Anda.

  • Buat dist_rain dengan menggunakan fungsi dist() pada nilai di kolom kedua rain.
  • Cetak matriks dist_rain ke konsol.
  • Buat hc dengan melakukan analisis klaster menggunakan hclust() pada dist_rain.
  • plot() objek hc dengan labels = rain$city untuk menambahkan nama kota.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)
Edit dan Jalankan Kode