IniziaInizia gratis

Estrazione delle caratteristiche e analisi: amzn_cons

Ora decidi di confrontarlo con il corpus amzn_cons_corp in un altro TDM di bigrammi. Ovviamente ti aspetti di vedere frasi diverse nella tua word cloud.

Userai di nuovo questa funzione personalizzata per estrarre le caratteristiche dei bigrammi per la visualizzazione:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea amzn_c_tdm convertendo amzn_cons_corp in una TermDocumentMatrix e includendo la funzione di bigrammi con control = list(tokenize = tokenizer).
  • Crea amzn_c_tdm_m come versione matrice di amzn_c_tdm.
  • Crea amzn_c_freq usando rowSums() per ottenere le frequenze dei termini da amzn_c_tdm_m.
  • Crea una wordcloud() usando names(amzn_c_freq) e i valori amzn_c_freq. Usa anche gli argomenti max.words = 25 e color = "red".

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___
Modifica ed esegui il codice