Extraction de caractéristiques et analyse : amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp et goog_cons_corp ont tous été prétraités ; vous pouvez donc maintenant extraire les caractéristiques que vous souhaitez examiner. Comme vous utilisez l’approche sac de mots, vous décidez de créer une TermDocumentMatrix de bigrammes pour le corpus des avis positifs d’Amazon, amzn_pros_corp. À partir de cela, vous pouvez rapidement créer un wordcloud() pour comprendre quelles expressions sont associées positivement au travail chez Amazon.
La fonction ci-dessous utilise RWeka pour tokeniser deux termes et est utilisée en arrière-plan dans cet exercice.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
amzn_p_tdmcomme uneTermDocumentMatrixà partir deamzn_pros_corp. Veillez à ajoutercontrol = list(tokenize = tokenizer)afin que les termes soient des bigrammes. - Créez
amzn_p_tdm_mà partir deamzn_p_tdmen utilisant la fonctionas.matrix(). - Créez
amzn_p_freqpour obtenir les fréquences des termes à partir deamzn_p_tdm_m. - Créez un
wordcloud()en utilisantnames(amzn_p_freq)comme mots,amzn_p_freqcomme fréquences, etmax.words = 25etcolor = "blue"pour l’esthétique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)