MulaiMulai sekarang secara gratis

Ekstraksi fitur & analisis: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp, dan goog_cons_corp semuanya telah dipraproses, sehingga sekarang Anda dapat mengekstrak fitur yang ingin Anda tinjau. Karena Anda menggunakan pendekatan bag of words, Anda memutuskan untuk membuat TermDocumentMatrix bigram untuk korpus ulasan positif Amazon, amzn_pros_corp. Dari sini, Anda dapat dengan cepat membuat wordcloud() untuk memahami frasa apa yang diasosiasikan orang secara positif dengan bekerja di Amazon.

Fungsi di bawah ini menggunakan RWeka untuk melakukan tokenisasi dua istilah dan digunakan di balik layar dalam latihan ini.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat amzn_p_tdm sebagai TermDocumentMatrix dari amzn_pros_corp. Pastikan menambahkan control = list(tokenize = tokenizer) agar istilahnya berupa bigram.
  • Buat amzn_p_tdm_m dari amzn_p_tdm dengan menggunakan fungsi as.matrix().
  • Buat amzn_p_freq untuk memperoleh frekuensi istilah dari amzn_p_tdm_m.
  • Buat wordcloud() dengan menggunakan names(amzn_p_freq) sebagai kata, amzn_p_freq sebagai frekuensinya, serta max.words = 25 dan color = "blue" untuk estetika.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)
Edit dan Jalankan Kode