Buat TDM yang ramah untuk dendrogram

Sekarang setelah Anda memahami langkah-langkah membuat dendrogram, Anda dapat menerapkannya pada teks. Namun, pertama-tama Anda harus membatasi jumlah kata dalam TDM menggunakan removeSparseTerms() dari tm. Mengapa Anda perlu menyesuaikan kelengangan (sparsity) TDM/DTM?

TDM dan DTM bersifat renggang (sparse), artinya sebagian besar elemennya adalah nol. Ingat bahwa 1000 tweet dapat menjadi TDM dengan lebih dari 3000 term! Anda tidak akan mudah menafsirkan dendrogram yang sangat ramai, terutama jika Anda mengerjakan lebih banyak teks.

Dalam kebanyakan konteks profesional, dendrogram yang baik didasarkan pada TDM dengan 25 hingga 70 term. Memiliki lebih dari 70 term bisa membuat visualnya penuh dan sulit dipahami. Sebaliknya, memiliki kurang dari 25 term kemungkinan membuat dendrogram Anda tidak mampu memetakan klaster yang relevan dan informatif.

Saat menggunakan removeSparseTerms(), parameter sparse akan menyesuaikan total term yang dipertahankan dalam TDM. Semakin dekat sparse ke 1, semakin banyak term yang dipertahankan. Nilai ini merepresentasikan ambang persentase jumlah nol untuk setiap term dalam TDM.

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

tweets_tdm telah dibuat menggunakan tweet tentang chardonnay.

Cetak dimensi tweets_tdm ke konsol.
Buat tdm1 menggunakan removeSparseTerms() dengan sparse = 0.95 pada tweets_tdm.
Buat tdm2 menggunakan removeSparseTerms() dengan sparse = 0.975 pada tweets_tdm.
Cetak tdm1 ke konsol untuk melihat berapa banyak term yang tersisa.
Cetak tdm2 ke konsol untuk melihat berapa banyak term yang tersisa.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___

Edit dan Jalankan Kode