MulaiMulai sekarang secara gratis

Buat term-document matrix

Anda hampir selesai dengan pekerjaan dasar yang mungkin kurang menarik sebelum kita beralih ke visualisasi dan analisis yang lebih seru berdasarkan konsep yang sudah Anda pelajari!

Dalam latihan ini, Anda akan melakukan proses serupa, tetapi mengambil transpose dari document-term matrix. Dalam hal ini, term-document matrix memiliki istilah pada kolom pertama dan dokumen di bagian atas sebagai nama kolom individual.

TDM sering digunakan untuk analisis bahasa. Alasannya, biasanya jumlah istilah lebih banyak daripada penulis atau dokumen, dan umumnya lebih mudah jika jumlah baris lebih banyak daripada kolom. Cara mudah untuk mulai menganalisis informasi adalah mengubah matriks tersebut menjadi matriks sederhana menggunakan as.matrix() pada TDM.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat coffee_tdm dengan menerapkan TermDocumentMatrix() pada clean_corp.
  • Buat coffee_m dengan mengonversi coffee_tdm menjadi matriks menggunakan as.matrix().
  • Cetak dimensi coffee_m ke konsol. Perhatikan jumlah baris dan kolomnya.
  • Cetak subset coffee_m yang memuat istilah (baris) "star" dan "starbucks" serta dokumen (kolom) 25 hingga 35.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]
Edit dan Jalankan Kode