Rassembler le tout : un dendrogramme basé sur du texte

Il est temps de mettre vos compétences en pratique pour créer votre premier dendrogramme basé sur du texte. Rappelez‑vous : les dendrogrammes réduisent l’information pour vous aider à interpréter les données. C’est un peu comme une moyenne : elle dit quelque chose, mais pas tout, sur une population. Les deux peuvent être trompeurs. Avec du texte, il y a souvent beaucoup de groupes peu pertinents, mais certains regroupements utiles peuvent aussi apparaître.

Une particularité des objets TDM et DTM est qu’il faut d’abord les convertir en matrices (avec as.matrix()), avant de les utiliser avec la fonction dist().

Pour les tweets sur le chardonnay, vous avez peut‑être été surpris de voir la légende de la soul Marvin Gaye apparaître dans le nuage de mots. Voyons si le dendrogramme met en évidence la même chose.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Créez tweets_tdm2 en appliquant removeSparseTerms() à tweets_tdm. Utilisez sparse = 0.975.
Créez tdm_m en utilisant as.matrix() sur tweets_tdm2 pour le convertir en matrice.
Créez tweets_dist contenant les distances de tdm_m en utilisant la fonction dist().
Créez un objet de classification hiérarchique appelé hc en utilisant hclust() sur tweets_dist.
Tracez un dendrogramme avec plot() et hc.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)

Modifier et exécuter le code