Ekstraksi fitur & analisis: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp, dan goog_cons_corp semuanya telah dipraproses, sehingga sekarang Anda dapat mengekstrak fitur yang ingin Anda tinjau. Karena Anda menggunakan pendekatan bag of words, Anda memutuskan untuk membuat TermDocumentMatrix bigram untuk korpus ulasan positif Amazon, amzn_pros_corp. Dari sini, Anda dapat dengan cepat membuat wordcloud() untuk memahami frasa apa yang diasosiasikan orang secara positif dengan bekerja di Amazon.

Fungsi di bawah ini menggunakan RWeka untuk melakukan tokenisasi dua istilah dan digunakan di balik layar dalam latihan ini.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

Buat amzn_p_tdm sebagai TermDocumentMatrix dari amzn_pros_corp. Pastikan menambahkan control = list(tokenize = tokenizer) agar istilahnya berupa bigram.
Buat amzn_p_tdm_m dari amzn_p_tdm dengan menggunakan fungsi as.matrix().
Buat amzn_p_freq untuk memperoleh frekuensi istilah dari amzn_p_tdm_m.
Buat wordcloud() dengan menggunakan names(amzn_p_freq) sebagai kata, amzn_p_freq sebagai frekuensinya, serta max.words = 25 dan color = "blue" untuk estetika.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Edit dan Jalankan Kode