MulaiMulai sekarang secara gratis

Ulangan TM (II)

Sekarang mari kita membuat Document Term Matrix (DTM). Dalam sebuah DTM:

  • Setiap baris matriks merepresentasikan sebuah dokumen.
  • Setiap kolom adalah token kata yang unik.
  • Nilai pada matriks menunjukkan penggunaan kata pada masing-masing dokumen.

DTM menjadi dasar bagi banyak analisis bag of words. Nanti dalam kursus, Anda juga akan menggunakan Term Document Matrix (TDM) yang terkait. Ini adalah transpose-nya; yaitu, kolom merepresentasikan dokumen dan baris merepresentasikan token kata unik.

Anda sebaiknya membangun DTM setelah membersihkan korpus (menggunakan clean_corpus()). Untuk melakukannya, panggil DocumentTermMatrix() pada objek korpus.

tm_dtm <- DocumentTermMatrix(tm_clean)

Jika Anda memerlukan pengingat yang lebih mendalam, silakan lihat kursus Text Mining with Bag-of-Words in R. Semoga dua latihan ini cukup mempersiapkan Anda untuk memulai perjalanan analisis sentimen!

Harap diketahui bahwa ini adalah data asli dari Twitter sehingga selalu ada kemungkinan mengandung kata-kata makian atau konten lain yang menyinggung (dalam latihan ini, dan latihan berikutnya yang juga menggunakan data Twitter asli).

Latihan ini adalah bagian dari kursus

Analisis Sentimen di R

Lihat Kursus

Petunjuk latihan

Kami telah membuat objek VCorpus() bernama clean_text yang berisi 1000 tweet yang menyebut kopi. Tweet tersebut telah dibersihkan dengan langkah prapemrosesan yang disebutkan sebelumnya dan tujuan Anda adalah membuat DTM darinya.

  • Terapkan DocumentTermMatrix() pada korpus clean_text untuk membuat DTM berbobot frekuensi istilah bernama tf_dtm.
  • Ubah objek DocumentTermMatrix() menjadi matriks sederhana dengan as.matrix(). Beri nama objek baru tersebut tf_dtm_m.
  • Periksa dimensi matriks menggunakan dim().
  • Gunakan pengindeksan tanda kurung siku untuk melihat sebagian matriks.
  • Pilih baris 16 hingga 20, dan kolom 2975 hingga 2985
  • Catat nilai frekuensi untuk kata "working."

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# clean_text is pre-defined
clean_text

# Create tf_dtm
tf_dtm <- ___

# Create tf_dtm_m
tf_dtm_m <- ___

# Dimensions of DTM matrix
___

# Subset part of tf_dtm_m for comparison
___[___, ___]
Edit dan Jalankan Kode