MulaiMulai sekarang secara gratis

Ekstraksi fitur & analisis: amzn_cons

Sekarang Anda memutuskan untuk membandingkannya dengan korpus amzn_cons_corp dalam TDM bigram lainnya. Tentu saja, Anda berharap melihat beberapa frasa yang berbeda pada word cloud Anda.

Sekali lagi, Anda akan menggunakan fungsi kustom ini untuk mengekstrak fitur bigram untuk visualisasi:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat amzn_c_tdm dengan mengonversi amzn_cons_corp menjadi TermDocumentMatrix dan menyertakan fungsi bigram control = list(tokenize = tokenizer).
  • Buat amzn_c_tdm_m sebagai versi matriks dari amzn_c_tdm.
  • Buat amzn_c_freq dengan menggunakan rowSums() untuk memperoleh frekuensi istilah dari amzn_c_tdm_m.
  • Buat wordcloud() menggunakan names(amzn_c_freq) dan nilai amzn_c_freq. Gunakan juga argumen max.words = 25 dan color = "red".

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___
Edit dan Jalankan Kode