Rassembler le tout : un dendrogramme basé sur du texte
Il est temps de mettre vos compétences en pratique pour créer votre premier dendrogramme basé sur du texte. Rappelez‑vous : les dendrogrammes réduisent l’information pour vous aider à interpréter les données. C’est un peu comme une moyenne : elle dit quelque chose, mais pas tout, sur une population. Les deux peuvent être trompeurs. Avec du texte, il y a souvent beaucoup de groupes peu pertinents, mais certains regroupements utiles peuvent aussi apparaître.
Une particularité des objets TDM et DTM est qu’il faut d’abord les convertir en matrices (avec as.matrix()), avant de les utiliser avec la fonction dist().
Pour les tweets sur le chardonnay, vous avez peut‑être été surpris de voir la légende de la soul Marvin Gaye apparaître dans le nuage de mots. Voyons si le dendrogramme met en évidence la même chose.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
tweets_tdm2en appliquantremoveSparseTerms()àtweets_tdm. Utilisezsparse = 0.975. - Créez
tdm_men utilisantas.matrix()surtweets_tdm2pour le convertir en matrice. - Créez
tweets_distcontenant les distances detdm_men utilisant la fonctiondist(). - Créez un objet de classification hiérarchique appelé
hcen utilisanthclust()surtweets_dist. - Tracez un dendrogramme avec
plot()ethc.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)