Cicip cepat text mining
Terkadang kita dapat mengetahui maksud penulis dan gagasan utama hanya dengan melihat kata-kata yang paling sering muncul.
Pada intinya, text mining dengan bag-of-words adalah cara untuk menghitung istilah, atau n-gram, di seluruh kumpulan dokumen. Perhatikan kalimat-kalimat berikut, yang telah kami simpan ke text dan sediakan di ruang kerja Anda:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
Menghitung kata secara manual pada kalimat di atas tentu merepotkan! Untungnya, paket qdap menawarkan alternatif yang lebih baik. Anda dapat dengan mudah menemukan 4 istilah yang paling sering muncul (termasuk yang jumlahnya seri) dalam text dengan memanggil fungsi freq_terms dan menentukan 4.
frequent_terms <- freq_terms(text, 4)
Objek frequent_terms menyimpan semua kata unik beserta jumlah kemunculannya. Anda kemudian dapat membuat bagan batang cukup dengan memanggil fungsi plot pada objek frequent_terms.
plot(frequent_terms)
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Kami telah membuat sebuah objek di ruang kerja Anda bernama new_text yang berisi beberapa kalimat.
- Muat paket
qdap. - Cetak
new_textke konsol. - Buat
term_countyang berisi 10 istilah paling sering muncul dalamnew_text. - Plot bagan batang dengan hasil
term_count.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___