Matriks jarak dan dendrogram
Cara sederhana untuk melakukan analisis klaster kata adalah dengan dendrogram pada term-document matrix Anda. Setelah memiliki TDM, Anda dapat memanggil dist() untuk menghitung perbedaan antara setiap baris matriks.
Selanjutnya, panggil hclust() untuk melakukan analisis klaster pada ketakmiripan dari matriks jarak. Terakhir, Anda dapat memvisualisasikan jarak frekuensi kata menggunakan dendrogram dan plot(). Sering kali dalam text mining, Anda dapat menemukan wawasan menarik atau klaster kata berdasarkan dendrogram.
Pertimbangkan tabel curah hujan tahunan yang Anda lihat di video sebelumnya. Cleveland dan Portland memiliki jumlah curah hujan yang sama, sehingga jaraknya 0. Anda mungkin memperkirakan kedua kota tersebut membentuk satu klaster dan New Orleans terpisah sendiri karena mendapatkan hujan jauh lebih banyak.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Data frame rain telah dimuat sebelumnya di workspace Anda.
- Buat
dist_raindengan menggunakan fungsidist()pada nilai di kolom keduarain. - Cetak matriks
dist_rainke konsol. - Buat
hcdengan melakukan analisis klaster menggunakanhclust()padadist_rain. plot()objekhcdenganlabels = rain$cityuntuk menambahkan nama kota.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)