Ulangan TM (II)
Sekarang mari kita membuat Document Term Matrix (DTM). Dalam sebuah DTM:
- Setiap baris matriks merepresentasikan sebuah dokumen.
- Setiap kolom adalah token kata yang unik.
- Nilai pada matriks menunjukkan penggunaan kata pada masing-masing dokumen.
DTM menjadi dasar bagi banyak analisis bag of words. Nanti dalam kursus, Anda juga akan menggunakan Term Document Matrix (TDM) yang terkait. Ini adalah transpose-nya; yaitu, kolom merepresentasikan dokumen dan baris merepresentasikan token kata unik.
Anda sebaiknya membangun DTM setelah membersihkan korpus (menggunakan clean_corpus()). Untuk melakukannya, panggil DocumentTermMatrix() pada objek korpus.
tm_dtm <- DocumentTermMatrix(tm_clean)
Jika Anda memerlukan pengingat yang lebih mendalam, silakan lihat kursus Text Mining with Bag-of-Words in R. Semoga dua latihan ini cukup mempersiapkan Anda untuk memulai perjalanan analisis sentimen!
Harap diketahui bahwa ini adalah data asli dari Twitter sehingga selalu ada kemungkinan mengandung kata-kata makian atau konten lain yang menyinggung (dalam latihan ini, dan latihan berikutnya yang juga menggunakan data Twitter asli).
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Petunjuk latihan
Kami telah membuat objek VCorpus() bernama clean_text yang berisi 1000 tweet yang menyebut kopi. Tweet tersebut telah dibersihkan dengan langkah prapemrosesan yang disebutkan sebelumnya dan tujuan Anda adalah membuat DTM darinya.
- Terapkan
DocumentTermMatrix()pada korpusclean_textuntuk membuat DTM berbobot frekuensi istilah bernamatf_dtm. - Ubah objek
DocumentTermMatrix()menjadi matriks sederhana denganas.matrix(). Beri nama objek baru tersebuttf_dtm_m. - Periksa dimensi matriks menggunakan
dim(). - Gunakan pengindeksan tanda kurung siku untuk melihat sebagian matriks.
- Pilih baris 16 hingga 20, dan kolom 2975 hingga 2985
- Catat nilai frekuensi untuk kata "working."
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# clean_text is pre-defined
clean_text
# Create tf_dtm
tf_dtm <- ___
# Create tf_dtm_m
tf_dtm_m <- ___
# Dimensions of DTM matrix
___
# Subset part of tf_dtm_m for comparison
___[___, ___]