Buat Korpus Berdasarkan Polaritas
Dalam latihan ini Anda akan melakukan Langkah 3 dari alur kerja text mining. Meskipun qdap bukan paket tidy, Anda akan mutate() sebuah kolom baru berdasarkan daftar polarity yang dikembalikan, yang merepresentasikan skor all polarity (itu petunjuk, BTW). Pada bab 3 kita menggunakan fungsi kustom pol_subsections yang hanya menggunakan deklarasi base R. Namun, mengikuti prinsip tidy, latihan ini menggunakan filter() lalu memperkenalkan pull(). Fungsi pull() bekerja seperti [[ untuk mengekstrak satu variabel.
Setelah dipisahkan, Anda menggabungkan semua komentar positif dan negatif menjadi dua dokumen yang lebih besar yang mewakili semua kata dalam ulasan sewa positif dan negatif.
Terakhir, Anda akan membuat Term Document Matrix (TDM) berbobot Term Frequency Inverse Document Frequency (TFIDF). Karena kode latihan ini dimulai dengan struktur tidy, beberapa fungsi yang dipinjam dari tm digunakan bersama operator %>% untuk menjaga konsistensi gaya. Jika dasar-dasar paket tm belum familiar, lihat kursus Text Mining with Bag-of-Words in R. Alih-alih menghitung seberapa sering sebuah kata digunakan (frekuensi), nilai dalam TDM diberi penalti untuk istilah yang terlalu sering digunakan, yang membantu mengurangi kata-kata yang tidak informatif.
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
pos_terms <- bos_reviews %>%
# Add polarity column
___(polarity = ___) %>%
# Filter for positive polarity
___(___) %>%
# Extract comments column
___(___) %>%
# Paste and collapse
___(collapse = "___")