Visualiser les mots dissemblables

Supposons que vous souhaitiez visualiser les mots qui ne sont pas en commun. Pour cela, vous pouvez aussi utiliser comparison.cloud(), avec des étapes très similaires, à une différence près.

Comme lorsque vous recherchiez les mots en commun, commencez par regrouper les tweets en corpus distincts et combinez-les dans un objet VCorpus(). Appliquez ensuite une fonction clean_corpus() et organisez le tout dans un TermDocumentMatrix.

Pour suivre quels mots appartiennent à coffee versus chardonnay, vous pouvez définir les noms de colonnes du TDM ainsi :

colnames(all_tdm) <- c("chardonnay", "coffee")

Enfin, convertissez l’objet en matrice avec as.matrix() pour l’utiliser dans comparison.cloud(). Pour chaque corpus distinct transmis à comparison.cloud(), vous pouvez spécifier une couleur, comme colors = c("red", "yellow", "green"), afin de rendre les sections distinctes.

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

all_corpus est préchargé dans votre espace de travail.

Créez all_clean en appliquant la fonction prédéfinie clean_corpus à all_corpus.
Créez all_tdm, un TermDocumentMatrix, à partir de all_clean.
Utilisez colnames() pour renommer chaque corpus distinct dans all_tdm. Nommez la première colonne "coffee" et la seconde colonne "chardonnay".
Créez all_m en convertissant all_tdm en matrice.
Créez un comparison.cloud() en utilisant all_m, avec colors = c("orange", "blue") et max.words = 50.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)

Modifier et exécuter le code