Buat term-document matrix
Anda hampir selesai dengan pekerjaan dasar yang mungkin kurang menarik sebelum kita beralih ke visualisasi dan analisis yang lebih seru berdasarkan konsep yang sudah Anda pelajari!
Dalam latihan ini, Anda akan melakukan proses serupa, tetapi mengambil transpose dari document-term matrix. Dalam hal ini, term-document matrix memiliki istilah pada kolom pertama dan dokumen di bagian atas sebagai nama kolom individual.
TDM sering digunakan untuk analisis bahasa. Alasannya, biasanya jumlah istilah lebih banyak daripada penulis atau dokumen, dan umumnya lebih mudah jika jumlah baris lebih banyak daripada kolom. Cara mudah untuk mulai menganalisis informasi adalah mengubah matriks tersebut menjadi matriks sederhana menggunakan as.matrix() pada TDM.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
coffee_tdmdengan menerapkanTermDocumentMatrix()padaclean_corp. - Buat
coffee_mdengan mengonversicoffee_tdmmenjadi matriks menggunakanas.matrix(). - Cetak dimensi
coffee_mke konsol. Perhatikan jumlah baris dan kolomnya. - Cetak subset
coffee_myang memuat istilah (baris)"star"dan"starbucks"serta dokumen (kolom) 25 hingga 35.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]