Visualiser les mots dissemblables
Supposons que vous souhaitiez visualiser les mots qui ne sont pas en commun. Pour cela, vous pouvez aussi utiliser comparison.cloud(), avec des étapes très similaires, à une différence près.
Comme lorsque vous recherchiez les mots en commun, commencez par regrouper les tweets en corpus distincts et combinez-les dans un objet VCorpus(). Appliquez ensuite une fonction clean_corpus() et organisez le tout dans un TermDocumentMatrix.
Pour suivre quels mots appartiennent à coffee versus chardonnay, vous pouvez définir les noms de colonnes du TDM ainsi :
colnames(all_tdm) <- c("chardonnay", "coffee")
Enfin, convertissez l’objet en matrice avec as.matrix() pour l’utiliser dans comparison.cloud(). Pour chaque corpus distinct transmis à comparison.cloud(), vous pouvez spécifier une couleur, comme colors = c("red", "yellow", "green"), afin de rendre les sections distinctes.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
all_corpus est préchargé dans votre espace de travail.
- Créez
all_cleanen appliquant la fonction prédéfinieclean_corpusàall_corpus. - Créez
all_tdm, unTermDocumentMatrix, à partir deall_clean. - Utilisez
colnames()pour renommer chaque corpus distinct dansall_tdm. Nommez la première colonne "coffee" et la seconde colonne "chardonnay". - Créez
all_men convertissantall_tdmen matrice. - Créez un
comparison.cloud()en utilisantall_m, aveccolors = c("orange", "blue")etmax.words = 50.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Clean the corpus
___ <- ___(___)
# Create all_tdm
___ <- ___(___)
# Give the columns distinct names
___(___) <- ___
# Create all_m
___ <- ___(___)
# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)