Buat TDM yang ramah untuk dendrogram
Sekarang setelah Anda memahami langkah-langkah membuat dendrogram, Anda dapat menerapkannya pada teks. Namun, pertama-tama Anda harus membatasi jumlah kata dalam TDM menggunakan removeSparseTerms() dari tm. Mengapa Anda perlu menyesuaikan kelengangan (sparsity) TDM/DTM?
TDM dan DTM bersifat renggang (sparse), artinya sebagian besar elemennya adalah nol. Ingat bahwa 1000 tweet dapat menjadi TDM dengan lebih dari 3000 term! Anda tidak akan mudah menafsirkan dendrogram yang sangat ramai, terutama jika Anda mengerjakan lebih banyak teks.
Dalam kebanyakan konteks profesional, dendrogram yang baik didasarkan pada TDM dengan 25 hingga 70 term. Memiliki lebih dari 70 term bisa membuat visualnya penuh dan sulit dipahami. Sebaliknya, memiliki kurang dari 25 term kemungkinan membuat dendrogram Anda tidak mampu memetakan klaster yang relevan dan informatif.
Saat menggunakan removeSparseTerms(), parameter sparse akan menyesuaikan total term yang dipertahankan dalam TDM. Semakin dekat sparse ke 1, semakin banyak term yang dipertahankan. Nilai ini merepresentasikan ambang persentase jumlah nol untuk setiap term dalam TDM.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
tweets_tdm telah dibuat menggunakan tweet tentang chardonnay.
- Cetak dimensi
tweets_tdmke konsol. - Buat
tdm1menggunakanremoveSparseTerms()dengansparse = 0.95padatweets_tdm. - Buat
tdm2menggunakanremoveSparseTerms()dengansparse = 0.975padatweets_tdm. - Cetak
tdm1ke konsol untuk melihat berapa banyak term yang tersisa. - Cetak
tdm2ke konsol untuk melihat berapa banyak term yang tersisa.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___