Ekstraksi fitur & analisis: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp, dan goog_cons_corp semuanya telah dipraproses, sehingga sekarang Anda dapat mengekstrak fitur yang ingin Anda tinjau. Karena Anda menggunakan pendekatan bag of words, Anda memutuskan untuk membuat TermDocumentMatrix bigram untuk korpus ulasan positif Amazon, amzn_pros_corp. Dari sini, Anda dapat dengan cepat membuat wordcloud() untuk memahami frasa apa yang diasosiasikan orang secara positif dengan bekerja di Amazon.
Fungsi di bawah ini menggunakan RWeka untuk melakukan tokenisasi dua istilah dan digunakan di balik layar dalam latihan ini.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
amzn_p_tdmsebagaiTermDocumentMatrixdariamzn_pros_corp. Pastikan menambahkancontrol = list(tokenize = tokenizer)agar istilahnya berupa bigram. - Buat
amzn_p_tdm_mdariamzn_p_tdmdengan menggunakan fungsias.matrix(). - Buat
amzn_p_frequntuk memperoleh frekuensi istilah dariamzn_p_tdm_m. - Buat
wordcloud()dengan menggunakannames(amzn_p_freq)sebagai kata,amzn_p_freqsebagai frekuensinya, sertamax.words = 25dancolor = "blue"untuk estetika.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)