MulaiMulai sekarang secara gratis

Gabungkan semuanya: dendrogram berbasis teks

Sekarang saatnya mempraktikkan keterampilan Anda untuk membuat dendrogram berbasis teks pertama. Ingat, dendrogram mereduksi informasi untuk membantu Anda memahami data. Ini mirip dengan bagaimana nilai rata-rata memberi tahu Anda sesuatu, tetapi tidak semuanya, tentang suatu populasi. Keduanya bisa menyesatkan. Pada data teks, sering kali ada banyak klaster yang tidak masuk akal, tetapi beberapa klaster yang berharga juga dapat muncul.

Keunikan objek TDM dan DTM adalah Anda harus mengonversinya terlebih dahulu menjadi matriks (dengan as.matrix()) sebelum menggunakannya dengan fungsi dist().

Untuk cuitan tentang chardonnay, Anda mungkin terkejut melihat legenda musik soul Marvin Gaye muncul dalam word cloud. Mari kita lihat apakah dendrogram menampilkan hal yang sama.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat tweets_tdm2 dengan menerapkan removeSparseTerms() pada tweets_tdm. Gunakan sparse = 0.975.
  • Buat tdm_m dengan menggunakan as.matrix() pada tweets_tdm2 untuk mengonversinya ke bentuk matriks.
  • Buat tweets_dist yang berisi jarak dari tdm_m menggunakan fungsi dist().
  • Buat objek klaster hierarkis bernama hc menggunakan hclust() pada tweets_dist.
  • Buat dendrogram dengan plot() dan hc.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)
Edit dan Jalankan Kode