Membuat document-term matrix

Semoga Anda tidak terlalu lelah setelah semua pekerjaan text mining dasar ini! Untuk berjaga-jaga, mari kembali ke kopi dan mengambil Starbucks sambil membangun document-term matrix dari tweet tentang kopi.

Dimulai dari berkas coffee.csv, kami telah menggunakan transformasi umum untuk menghasilkan korpus bersih bernama clean_corp.

Document-term matrix digunakan ketika Anda ingin setiap dokumen direpresentasikan sebagai baris. Ini berguna jika Anda membandingkan penulis per baris, atau data diurutkan secara kronologis dan Anda ingin mempertahankan deret waktunya. Paket tm menggunakan kelas "simple triplet matrix". Namun, sering kali lebih mudah memanipulasi dan memeriksa objeknya dengan mengklasifikasikan ulang DTM menggunakan as.matrix().

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

Buat coffee_dtm dengan menerapkan DocumentTermMatrix() pada clean_corp.
Buat coffee_m, versi matriks dari coffee_dtm, menggunakan as.matrix().
Cetak dimensi coffee_m ke konsol menggunakan fungsi dim(). Perhatikan jumlah baris dan kolomnya.
Cetak subset coffee_m yang memuat dokumen (baris) 25 hingga 35 dan term (kolom) "star" dan "starbucks".

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Edit dan Jalankan Kode