Ekstraksi fitur & analisis: amzn_cons

Sekarang Anda memutuskan untuk membandingkannya dengan korpus amzn_cons_corp dalam TDM bigram lainnya. Tentu saja, Anda berharap melihat beberapa frasa yang berbeda pada word cloud Anda.

Sekali lagi, Anda akan menggunakan fungsi kustom ini untuk mengekstrak fitur bigram untuk visualisasi:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

Buat amzn_c_tdm dengan mengonversi amzn_cons_corp menjadi TermDocumentMatrix dan menyertakan fungsi bigram control = list(tokenize = tokenizer).
Buat amzn_c_tdm_m sebagai versi matriks dari amzn_c_tdm.
Buat amzn_c_freq dengan menggunakan rowSums() untuk memperoleh frekuensi istilah dari amzn_c_tdm_m.
Buat wordcloud() menggunakan names(amzn_c_freq) dan nilai amzn_c_freq. Gunakan juga argumen max.words = 25 dan color = "red".

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___

Edit dan Jalankan Kode