Trouver des mots communs

Supposons que vous souhaitiez visualiser les mots communs à travers plusieurs documents. Vous pouvez le faire avec commonality.cloud().

Chacun de nos corpus « coffee » et « chardonnay » est composé de nombreux tweets individuels. Pour traiter les tweets sur le café comme un seul document, et de même pour le chardonnay, vous paste() tous les tweets de chaque corpus avec le paramètre collapse = " ". Cela regroupe tous les tweets (séparés par un espace) en un seul vecteur. Vous pouvez ensuite créer un vecteur unique contenant les deux documents regroupés.

a_single_string <- paste(a_character_vector, collapse = " ")

Une fois ces étapes terminées, vous pouvez reprendre la même approche que précédemment pour créer un VCorpus() à partir d’un VectorSource construit depuis l’objet all_tweets.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Créez all_coffee en utilisant paste() avec collapse = " " sur coffee_tweets$text.
Créez all_chardonnay en utilisant paste() avec collapse = " " sur chardonnay_tweets$text.
Créez all_tweets en utilisant c() pour combiner all_coffee et all_chardonnay. Placez all_coffee en premier.
Convertissez all_tweets en utilisant VectorSource().
Créez all_corpus en utilisant VCorpus() sur all_tweets.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create all_coffee
___ <- ___(___, ___)

# Create all_chardonnay
___ <- ___(___, ___)

# Create all_tweets
___ <- ___(___, ___)

# Convert to a vector source
___ <- ___(___)

# Create all_corpus
___ <- ___(___)

Modifier et exécuter le code