Extraction de caractéristiques et analyse : amzn_cons
Vous décidez maintenant de comparer cela avec le corpus amzn_cons_corp dans une autre matrice TDM de bigrammes. Évidemment, vous vous attendez à voir des expressions différentes dans votre nuage de mots.
Une fois encore, vous allez utiliser cette fonction personnalisée pour extraire vos caractéristiques de bigrammes pour la visualisation :
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
amzn_c_tdmen convertissantamzn_cons_corpenTermDocumentMatrixet en intégrant la fonction de bigrammes viacontrol = list(tokenize = tokenizer). - Créez
amzn_c_tdm_mcomme version matricielle deamzn_c_tdm. - Créez
amzn_c_freqen utilisantrowSums()pour obtenir les fréquences des termes à partir deamzn_c_tdm_m. - Créez un
wordcloud()en utilisantnames(amzn_c_freq)et les valeursamzn_c_freq. Utilisez également les argumentsmax.words = 25etcolor = "red".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___