Matrice de distances et dendrogramme
Une façon simple d’analyser des clusters de mots consiste à tracer un dendrogramme sur votre matrice termes-documents. Une fois la TDM obtenue, vous pouvez appeler dist() pour calculer les différences entre chaque ligne de la matrice.
Ensuite, appelez hclust() pour effectuer l’analyse de clusters à partir des dissimilarités de la matrice de distances. Enfin, vous pouvez visualiser les distances de fréquences de mots avec un dendrogramme et plot(). En fouille de textes, un dendrogramme permet souvent de faire émerger des informations intéressantes ou des groupes de mots.
Considérez le tableau des précipitations annuelles vu dans la dernière vidéo. Cleveland et Portland reçoivent la même quantité de pluie, leur distance est donc 0. Vous pouvez vous attendre à ce que ces deux villes forment un cluster, tandis que La Nouvelle-Orléans se retrouve seule puisqu’elle reçoit beaucoup plus de pluie.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Le data frame rain a été préchargé dans votre espace de travail.
- Créez
dist_rainen utilisant la fonctiondist()sur les valeurs de la deuxième colonne derain. - Affichez la matrice
dist_raindans la console. - Créez
hcen réalisant une analyse de clusters avechclust()surdist_rain. - Utilisez
plot()sur l’objethcaveclabels = rain$citypour ajouter les noms des villes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)