CommencerCommencer gratuitement

Matrice de distances et dendrogramme

Une façon simple d’analyser des clusters de mots consiste à tracer un dendrogramme sur votre matrice termes-documents. Une fois la TDM obtenue, vous pouvez appeler dist() pour calculer les différences entre chaque ligne de la matrice.

Ensuite, appelez hclust() pour effectuer l’analyse de clusters à partir des dissimilarités de la matrice de distances. Enfin, vous pouvez visualiser les distances de fréquences de mots avec un dendrogramme et plot(). En fouille de textes, un dendrogramme permet souvent de faire émerger des informations intéressantes ou des groupes de mots.

Considérez le tableau des précipitations annuelles vu dans la dernière vidéo. Cleveland et Portland reçoivent la même quantité de pluie, leur distance est donc 0. Vous pouvez vous attendre à ce que ces deux villes forment un cluster, tandis que La Nouvelle-Orléans se retrouve seule puisqu’elle reçoit beaucoup plus de pluie.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Le data frame rain a été préchargé dans votre espace de travail.

  • Créez dist_rain en utilisant la fonction dist() sur les valeurs de la deuxième colonne de rain.
  • Affichez la matrice dist_rain dans la console.
  • Créez hc en réalisant une analyse de clusters avec hclust() sur dist_rain.
  • Utilisez plot() sur l’objet hc avec labels = rain$city pour ajouter les noms des villes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)
Modifier et exécuter le code