amzn_cons dendrogramme
Les avis semblent indiquer des horaires de travail longs et un mauvais équilibre vie professionnelle/vie personnelle. En guise de technique de regroupement simple, vous décidez d’effectuer un clustering hiérarchique et de tracer un dendrogramme pour voir à quel point ces expressions sont liées.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
amzn_c_tdmen tant queTermDocumentMatrixà partir deamzn_cons_corpaveccontrol = list(tokenize = tokenizer). - Affichez
amzn_c_tdmdans la console. - Créez
amzn_c_tdm2en appliquant la fonctionremoveSparseTerms()àamzn_c_tdmavec l’argumentsparseégal à.993. - Créez
hc, un objet de clustering hiérarchique, en imbriquant la matrice de distancesdist(amzn_c_tdm2)dans la fonctionhclust(). Pensez aussi à passermethod = "complete"à la fonctionhclust(). - Tracez
hcpour visualiser les bigrammes regroupés et voir comment les concepts de la section « cons » d’Amazon peuvent vous amener à une conclusion.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___