MulaiMulai sekarang secara gratis

Menggunakan asosiasi kata

Cara lain untuk memikirkan relasi antar kata adalah dengan fungsi findAssocs() di paket tm. Untuk setiap kata tertentu, findAssocs() menghitung korelasinya dengan setiap kata lain dalam TDM atau DTM. Skor berkisar dari 0 hingga 1. Skor 1 berarti dua kata tersebut selalu muncul bersama dalam dokumen, sedangkan skor mendekati 0 berarti kedua istilah jarang muncul dalam dokumen yang sama.

Perlu diingat, perhitungan findAssocs() dilakukan pada tingkat dokumen. Jadi untuk setiap dokumen yang berisi kata yang dicari, istilah lain dalam dokumen spesifik tersebut dianggap berasosiasi. Dokumen yang tidak memuat istilah pencarian diabaikan.

Untuk menggunakan findAssocs(), berikan TDM atau DTM, istilah pencarian, dan nilai korelasi minimum. Fungsi ini akan mengembalikan daftar semua istilah lain yang memenuhi atau melampaui ambang minimum.

findAssocs(tdm, "word", 0.25)

Nilai korelasi minimum sering kali relatif rendah karena keragaman kata. Jangan heran jika 0.10 menunjukkan asosiasi istilah berpasangan yang kuat.

Tweet tentang kopi telah dibersihkan dan diorganisasi menjadi tweets_tdm untuk latihan ini. Anda akan mencari asosiasi istilah, memanipulasi hasilnya dengan list_vect2df() dari qdap, lalu membuat plot dengan kode ggplot2 pada skrip contoh.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat associations menggunakan findAssocs() pada tweets_tdm untuk menemukan istilah yang berasosiasi dengan "venti" yang memenuhi ambang minimum 0.2.
  • Lihat istilah yang berasosiasi dengan "venti" dengan mencetak associations ke konsol.
  • Buat associations_df dengan memanggil list_vect2df(), berikan associations, lalu setel col2 ke "word" dan col3 ke "score".
  • Jalankan kode ggplot2 untuk membuat dot plot dari nilai asosiasi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create associations
___ <- ___(___, ___, ___)

# View the venti associations
___

# Create associations_df
___ <- ___(___, ___, ___)

# Plot the associations_df values
ggplot(associations_df, aes(score, word)) + 
  geom_point(size = 3) + 
  theme_gdocs()
Edit dan Jalankan Kode