MulaiMulai sekarang secara gratis

Asosiasi kata

Seperti yang diharapkan, Anda melihat topik serupa di seluruh dendrogram. Beralih kembali ke komentar positif, Anda memutuskan untuk meneliti frasa teratas yang muncul dalam word cloud. Anda berharap menemukan istilah yang berasosiasi menggunakan fungsi findAssocs() dari tm. Sekarang setelah Anda mengetahui tentang jam kerja yang panjang dan kurangnya keseimbangan kerja-hidup, Anda ingin memeriksa hal-hal yang mengejutkan.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

Korpus amzn_pros_corp telah dibersihkan menggunakan fungsi khusus seperti sebelumnya.

  • Bangun TDM bernama amzn_p_tdm dari amzn_pros_corp dan control = list(tokenize = tokenizer).
  • Buat amzn_p_m dengan mengonversi amzn_p_tdm menjadi matriks.
  • Buat amzn_p_freq dengan menerapkan rowSums() pada amzn_p_m.
  • Buat term_frequency menggunakan sort() pada amzn_p_freq dengan argumen decreasing = TRUE.
  • Tinjau 5 bigram pertama menggunakan term_frequency[1:5].
  • Anda mungkin terkejut melihat "fast paced" sebagai istilah teratas karena ini bisa menjadi istilah negatif yang berkaitan dengan "long hours". Lihat istilah yang paling berasosiasi dengan "fast paced". Gunakan findAssocs() pada amzn_p_tdm untuk menelaah "fast paced" dengan ambang 0.2.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___
Edit dan Jalankan Kode