Membuat document-term matrix
Semoga Anda tidak terlalu lelah setelah semua pekerjaan text mining dasar ini! Untuk berjaga-jaga, mari kembali ke kopi dan mengambil Starbucks sambil membangun document-term matrix dari tweet tentang kopi.
Dimulai dari berkas coffee.csv, kami telah menggunakan transformasi umum untuk menghasilkan korpus bersih bernama clean_corp.
Document-term matrix digunakan ketika Anda ingin setiap dokumen direpresentasikan sebagai baris. Ini berguna jika Anda membandingkan penulis per baris, atau data diurutkan secara kronologis dan Anda ingin mempertahankan deret waktunya. Paket tm menggunakan kelas "simple triplet matrix". Namun, sering kali lebih mudah memanipulasi dan memeriksa objeknya dengan mengklasifikasikan ulang DTM menggunakan as.matrix().
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
coffee_dtmdengan menerapkanDocumentTermMatrix()padaclean_corp. - Buat
coffee_m, versi matriks daricoffee_dtm, menggunakanas.matrix(). - Cetak dimensi
coffee_mke konsol menggunakan fungsidim(). Perhatikan jumlah baris dan kolomnya. - Cetak subset
coffee_myang memuat dokumen (baris) 25 hingga 35 dan term (kolom)"star"dan"starbucks".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]