Ekstraksi fitur & analisis: amzn_cons
Sekarang Anda memutuskan untuk membandingkannya dengan korpus amzn_cons_corp dalam TDM bigram lainnya. Tentu saja, Anda berharap melihat beberapa frasa yang berbeda pada word cloud Anda.
Sekali lagi, Anda akan menggunakan fungsi kustom ini untuk mengekstrak fitur bigram untuk visualisasi:
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
amzn_c_tdmdengan mengonversiamzn_cons_corpmenjadiTermDocumentMatrixdan menyertakan fungsi bigramcontrol = list(tokenize = tokenizer). - Buat
amzn_c_tdm_msebagai versi matriks dariamzn_c_tdm. - Buat
amzn_c_freqdengan menggunakanrowSums()untuk memperoleh frekuensi istilah dariamzn_c_tdm_m. - Buat
wordcloud()menggunakannames(amzn_c_freq)dan nilaiamzn_c_freq. Gunakan juga argumenmax.words = 25dancolor = "red".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___