Extraction de caractéristiques et analyse : amzn_cons

Vous décidez maintenant de comparer cela avec le corpus amzn_cons_corp dans une autre matrice TDM de bigrammes. Évidemment, vous vous attendez à voir des expressions différentes dans votre nuage de mots.

Une fois encore, vous allez utiliser cette fonction personnalisée pour extraire vos caractéristiques de bigrammes pour la visualisation :

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Créez amzn_c_tdm en convertissant amzn_cons_corp en TermDocumentMatrix et en intégrant la fonction de bigrammes via control = list(tokenize = tokenizer).
Créez amzn_c_tdm_m comme version matricielle de amzn_c_tdm.
Créez amzn_c_freq en utilisant rowSums() pour obtenir les fréquences des termes à partir de amzn_c_tdm_m.
Créez un wordcloud() en utilisant names(amzn_c_freq) et les valeurs amzn_c_freq. Utilisez également les arguments max.words = 25 et color = "red".

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___

Modifier et exécuter le code