Estrazione delle caratteristiche e analisi: amzn_cons
Ora decidi di confrontarlo con il corpus amzn_cons_corp in un altro TDM di bigrammi. Ovviamente ti aspetti di vedere frasi diverse nella tua word cloud.
Userai di nuovo questa funzione personalizzata per estrarre le caratteristiche dei bigrammi per la visualizzazione:
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
amzn_c_tdmconvertendoamzn_cons_corpin unaTermDocumentMatrixe includendo la funzione di bigrammi concontrol = list(tokenize = tokenizer). - Crea
amzn_c_tdm_mcome versione matrice diamzn_c_tdm. - Crea
amzn_c_frequsandorowSums()per ottenere le frequenze dei termini daamzn_c_tdm_m. - Crea una
wordcloud()usandonames(amzn_c_freq)e i valoriamzn_c_freq. Usa anche gli argomentimax.words = 25ecolor = "red".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___