Asosiasi kata
Seperti yang diharapkan, Anda melihat topik serupa di seluruh dendrogram. Beralih kembali ke komentar positif, Anda memutuskan untuk meneliti frasa teratas yang muncul dalam word cloud. Anda berharap menemukan istilah yang berasosiasi menggunakan fungsi findAssocs() dari tm. Sekarang setelah Anda mengetahui tentang jam kerja yang panjang dan kurangnya keseimbangan kerja-hidup, Anda ingin memeriksa hal-hal yang mengejutkan.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Korpus amzn_pros_corp telah dibersihkan menggunakan fungsi khusus seperti sebelumnya.
- Bangun TDM bernama
amzn_p_tdmdariamzn_pros_corpdancontrol = list(tokenize = tokenizer). - Buat
amzn_p_mdengan mengonversiamzn_p_tdmmenjadi matriks. - Buat
amzn_p_freqdengan menerapkanrowSums()padaamzn_p_m. - Buat
term_frequencymenggunakansort()padaamzn_p_freqdengan argumendecreasing = TRUE. - Tinjau 5 bigram pertama menggunakan
term_frequency[1:5]. - Anda mungkin terkejut melihat "fast paced" sebagai istilah teratas karena ini bisa menjadi istilah negatif yang berkaitan dengan "long hours". Lihat istilah yang paling berasosiasi dengan "fast paced". Gunakan
findAssocs()padaamzn_p_tdmuntuk menelaah"fast paced"dengan ambang0.2.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___