Extraction de caractéristiques et analyse : amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp et goog_cons_corp ont tous été prétraités ; vous pouvez donc maintenant extraire les caractéristiques que vous souhaitez examiner. Comme vous utilisez l’approche sac de mots, vous décidez de créer une TermDocumentMatrix de bigrammes pour le corpus des avis positifs d’Amazon, amzn_pros_corp. À partir de cela, vous pouvez rapidement créer un wordcloud() pour comprendre quelles expressions sont associées positivement au travail chez Amazon.

La fonction ci-dessous utilise RWeka pour tokeniser deux termes et est utilisée en arrière-plan dans cet exercice.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Créez amzn_p_tdm comme une TermDocumentMatrix à partir de amzn_pros_corp. Veillez à ajouter control = list(tokenize = tokenizer) afin que les termes soient des bigrammes.
Créez amzn_p_tdm_m à partir de amzn_p_tdm en utilisant la fonction as.matrix().
Créez amzn_p_freq pour obtenir les fréquences des termes à partir de amzn_p_tdm_m.
Créez un wordcloud() en utilisant names(amzn_p_freq) comme mots, amzn_p_freq comme fréquences, et max.words = 25 et color = "blue" pour l’esthétique.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Modifier et exécuter le code