CommencerCommencer gratuitement

amzn_cons dendrogramme

Les avis semblent indiquer des horaires de travail longs et un mauvais équilibre vie professionnelle/vie personnelle. En guise de technique de regroupement simple, vous décidez d’effectuer un clustering hiérarchique et de tracer un dendrogramme pour voir à quel point ces expressions sont liées.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

  • Créez amzn_c_tdm en tant que TermDocumentMatrix à partir de amzn_cons_corp avec control = list(tokenize = tokenizer).
  • Affichez amzn_c_tdm dans la console.
  • Créez amzn_c_tdm2 en appliquant la fonction removeSparseTerms() à amzn_c_tdm avec l’argument sparse égal à .993.
  • Créez hc, un objet de clustering hiérarchique, en imbriquant la matrice de distances dist(amzn_c_tdm2) dans la fonction hclust(). Pensez aussi à passer method = "complete" à la fonction hclust().
  • Tracez hc pour visualiser les bigrammes regroupés et voir comment les concepts de la section « cons » d’Amazon peuvent vous amener à une conclusion.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Modifier et exécuter le code