CommencerCommencer gratuitement

Utiliser l’association de mots

Une autre manière d’examiner les relations entre les mots consiste à utiliser la fonction findAssocs() du package tm. Pour un mot donné, findAssocs() calcule sa corrélation avec chaque autre mot d’un TDM ou d’un DTM. Les scores vont de 0 à 1. Un score de 1 signifie que deux mots apparaissent toujours ensemble dans les documents, tandis qu’un score proche de 0 signifie que les termes apparaissent rarement dans le même document.

Gardez à l’esprit que le calcul de findAssocs() se fait au niveau du document. Ainsi, pour chaque document contenant le mot recherché, les autres termes présents dans ces documents spécifiques sont considérés comme associés. Les documents ne contenant pas le terme recherché sont ignorés.

Pour utiliser findAssocs(), passez un TDM ou un DTM, le terme recherché et une corrélation minimale. La fonction renverra une liste de tous les autres termes dont la corrélation atteint ou dépasse ce seuil minimal.

findAssocs(tdm, "word", 0.25)

Les valeurs minimales de corrélation sont souvent relativement faibles en raison de la diversité lexicale. Ne soyez pas surpris si 0.10 révèle une association forte entre deux termes.

Les tweets sur le café ont été nettoyés et organisés dans tweets_tdm pour cet exercice. Vous allez rechercher une association de termes, manipuler les résultats avec list_vect2df() de qdap, puis créer un graphique avec le code ggplot2 de l’exemple fourni.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

  • Créez associations avec findAssocs() sur tweets_tdm pour trouver les termes associés à "venti" qui atteignent un seuil minimal de 0.2.
  • Affichez les termes associés à "venti" en imprimant associations dans la console.
  • Créez associations_df en appelant list_vect2df(), en passant associations, puis en définissant col2 sur "word" et col3 sur "score".
  • Exécutez le code ggplot2 pour produire un diagramme en points des valeurs d’association.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create associations
___ <- ___(___, ___, ___)

# View the venti associations
___

# Create associations_df
___ <- ___(___, ___, ___)

# Plot the associations_df values
ggplot(associations_df, aes(score, word)) + 
  geom_point(size = 3) + 
  theme_gdocs()
Modifier et exécuter le code