Menggunakan asosiasi kata
Cara lain untuk memikirkan relasi antar kata adalah dengan fungsi findAssocs() di paket tm. Untuk setiap kata tertentu, findAssocs() menghitung korelasinya dengan setiap kata lain dalam TDM atau DTM. Skor berkisar dari 0 hingga 1. Skor 1 berarti dua kata tersebut selalu muncul bersama dalam dokumen, sedangkan skor mendekati 0 berarti kedua istilah jarang muncul dalam dokumen yang sama.
Perlu diingat, perhitungan findAssocs() dilakukan pada tingkat dokumen. Jadi untuk setiap dokumen yang berisi kata yang dicari, istilah lain dalam dokumen spesifik tersebut dianggap berasosiasi. Dokumen yang tidak memuat istilah pencarian diabaikan.
Untuk menggunakan findAssocs(), berikan TDM atau DTM, istilah pencarian, dan nilai korelasi minimum. Fungsi ini akan mengembalikan daftar semua istilah lain yang memenuhi atau melampaui ambang minimum.
findAssocs(tdm, "word", 0.25)
Nilai korelasi minimum sering kali relatif rendah karena keragaman kata. Jangan heran jika 0.10 menunjukkan asosiasi istilah berpasangan yang kuat.
Tweet tentang kopi telah dibersihkan dan diorganisasi menjadi tweets_tdm untuk latihan ini. Anda akan mencari asosiasi istilah, memanipulasi hasilnya dengan list_vect2df() dari qdap, lalu membuat plot dengan kode ggplot2 pada skrip contoh.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
associationsmenggunakanfindAssocs()padatweets_tdmuntuk menemukan istilah yang berasosiasi dengan "venti" yang memenuhi ambang minimum0.2. - Lihat istilah yang berasosiasi dengan "venti" dengan mencetak
associationske konsol. - Buat
associations_dfdengan memanggillist_vect2df(), berikanassociations, lalu setelcol2ke"word"dancol3ke"score". - Jalankan kode
ggplot2untuk membuat dot plot dari nilai asosiasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create associations
___ <- ___(___, ___, ___)
# View the venti associations
___
# Create associations_df
___ <- ___(___, ___, ___)
# Plot the associations_df values
ggplot(associations_df, aes(score, word)) +
geom_point(size = 3) +
theme_gdocs()