Gabungkan semuanya: dendrogram berbasis teks
Sekarang saatnya mempraktikkan keterampilan Anda untuk membuat dendrogram berbasis teks pertama. Ingat, dendrogram mereduksi informasi untuk membantu Anda memahami data. Ini mirip dengan bagaimana nilai rata-rata memberi tahu Anda sesuatu, tetapi tidak semuanya, tentang suatu populasi. Keduanya bisa menyesatkan. Pada data teks, sering kali ada banyak klaster yang tidak masuk akal, tetapi beberapa klaster yang berharga juga dapat muncul.
Keunikan objek TDM dan DTM adalah Anda harus mengonversinya terlebih dahulu menjadi matriks (dengan as.matrix()) sebelum menggunakannya dengan fungsi dist().
Untuk cuitan tentang chardonnay, Anda mungkin terkejut melihat legenda musik soul Marvin Gaye muncul dalam word cloud. Mari kita lihat apakah dendrogram menampilkan hal yang sama.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
tweets_tdm2dengan menerapkanremoveSparseTerms()padatweets_tdm. Gunakansparse = 0.975. - Buat
tdm_mdengan menggunakanas.matrix()padatweets_tdm2untuk mengonversinya ke bentuk matriks. - Buat
tweets_distyang berisi jarak daritdm_mmenggunakan fungsidist(). - Buat objek klaster hierarkis bernama
hcmenggunakanhclust()padatweets_dist. - Buat dendrogram dengan
plot()danhc.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)