CommencerCommencer gratuitement

Visualiser les mots dissemblables

Supposons que vous souhaitiez visualiser les mots qui ne sont pas en commun. Pour cela, vous pouvez aussi utiliser comparison.cloud(), avec des étapes très similaires, à une différence près.

Comme lorsque vous recherchiez les mots en commun, commencez par regrouper les tweets en corpus distincts et combinez-les dans un objet VCorpus(). Appliquez ensuite une fonction clean_corpus() et organisez le tout dans un TermDocumentMatrix.

Pour suivre quels mots appartiennent à coffee versus chardonnay, vous pouvez définir les noms de colonnes du TDM ainsi :

colnames(all_tdm) <- c("chardonnay", "coffee")

Enfin, convertissez l’objet en matrice avec as.matrix() pour l’utiliser dans comparison.cloud(). Pour chaque corpus distinct transmis à comparison.cloud(), vous pouvez spécifier une couleur, comme colors = c("red", "yellow", "green"), afin de rendre les sections distinctes.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

all_corpus est préchargé dans votre espace de travail.

  • Créez all_clean en appliquant la fonction prédéfinie clean_corpus à all_corpus.
  • Créez all_tdm, un TermDocumentMatrix, à partir de all_clean.
  • Utilisez colnames() pour renommer chaque corpus distinct dans all_tdm. Nommez la première colonne "coffee" et la seconde colonne "chardonnay".
  • Créez all_m en convertissant all_tdm en matrice.
  • Créez un comparison.cloud() en utilisant all_m, avec colors = c("orange", "blue") et max.words = 50.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)
Modifier et exécuter le code