Cicip cepat text mining

Terkadang kita dapat mengetahui maksud penulis dan gagasan utama hanya dengan melihat kata-kata yang paling sering muncul.

Pada intinya, text mining dengan bag-of-words adalah cara untuk menghitung istilah, atau n-gram, di seluruh kumpulan dokumen. Perhatikan kalimat-kalimat berikut, yang telah kami simpan ke text dan sediakan di ruang kerja Anda:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Menghitung kata secara manual pada kalimat di atas tentu merepotkan! Untungnya, paket qdap menawarkan alternatif yang lebih baik. Anda dapat dengan mudah menemukan 4 istilah yang paling sering muncul (termasuk yang jumlahnya seri) dalam text dengan memanggil fungsi freq_terms dan menentukan 4.

frequent_terms <- freq_terms(text, 4)

Objek frequent_terms menyimpan semua kata unik beserta jumlah kemunculannya. Anda kemudian dapat membuat bagan batang cukup dengan memanggil fungsi plot pada objek frequent_terms.

plot(frequent_terms)

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

Kami telah membuat sebuah objek di ruang kerja Anda bernama new_text yang berisi beberapa kalimat.

Muat paket qdap.
Cetak new_text ke konsol.
Buat term_count yang berisi 10 istilah paling sering muncul dalam new_text.
Plot bagan batang dengan hasil term_count.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Edit dan Jalankan Kode