Buat Korpus Berdasarkan Polaritas

Dalam latihan ini Anda akan melakukan Langkah 3 dari alur kerja text mining. Meskipun qdap bukan paket tidy, Anda akan mutate() sebuah kolom baru berdasarkan daftar polarity yang dikembalikan, yang merepresentasikan skor all polarity (itu petunjuk, BTW). Pada bab 3 kita menggunakan fungsi kustom pol_subsections yang hanya menggunakan deklarasi base R. Namun, mengikuti prinsip tidy, latihan ini menggunakan filter() lalu memperkenalkan pull(). Fungsi pull() bekerja seperti [[ untuk mengekstrak satu variabel.

Setelah dipisahkan, Anda menggabungkan semua komentar positif dan negatif menjadi dua dokumen yang lebih besar yang mewakili semua kata dalam ulasan sewa positif dan negatif.

Terakhir, Anda akan membuat Term Document Matrix (TDM) berbobot Term Frequency Inverse Document Frequency (TFIDF). Karena kode latihan ini dimulai dengan struktur tidy, beberapa fungsi yang dipinjam dari tm digunakan bersama operator %>% untuk menjaga konsistensi gaya. Jika dasar-dasar paket tm belum familiar, lihat kursus Text Mining with Bag-of-Words in R. Alih-alih menghitung seberapa sering sebuah kata digunakan (frekuensi), nilai dalam TDM diberi penalti untuk istilah yang terlalu sering digunakan, yang membantu mengurangi kata-kata yang tidak informatif.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen di R

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

pos_terms <- bos_reviews %>%
  # Add polarity column
  ___(polarity = ___) %>%
  # Filter for positive polarity
  ___(___) %>%
  # Extract comments column
  ___(___) %>% 
  # Paste and collapse
  ___(collapse = "___")

Edit dan Jalankan Kode