Créer un TDM adapté au dendrogramme
Maintenant que vous comprenez les étapes de création d’un dendrogramme, vous pouvez les appliquer au texte. Mais vous devez d’abord limiter le nombre de mots dans votre TDM en utilisant removeSparseTerms() de tm. Pourquoi vouloir ajuster la parcimonie du TDM/DTM ?
Les TDM et DTM sont clairsemés : ils contiennent principalement des zéros. Rappelez‑vous que 1 000 tweets peuvent produire un TDM avec plus de 3 000 termes ! Vous ne pourrez pas interpréter facilement un dendrogramme aussi chargé, surtout si vous travaillez avec davantage de texte.
Dans la plupart des contextes professionnels, un bon dendrogramme repose sur un TDM comptant entre 25 et 70 termes. Au‑delà de 70, la visualisation risque d’être encombrée et difficile à comprendre. À l’inverse, en‑deçà de 25, votre dendrogramme a peu de chances de faire apparaître des groupes pertinents et instructifs.
Lorsque vous utilisez removeSparseTerms(), le paramètre sparse permet d’ajuster le nombre total de termes conservés dans le TDM. Plus sparse est proche de 1, plus on conserve de termes. Cette valeur représente un seuil (en pourcentage) de zéros autorisés pour chaque terme du TDM.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
tweets_tdm a été créé à partir des tweets sur le chardonnay.
- Affichez les dimensions de
tweets_tdmdans la console. - Créez
tdm1en appliquantremoveSparseTerms()avecsparse = 0.95surtweets_tdm. - Créez
tdm2en appliquantremoveSparseTerms()avecsparse = 0.975surtweets_tdm. - Affichez
tdm1dans la console pour voir combien de termes restent. - Affichez
tdm2dans la console pour voir combien de termes restent.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___