Comment les bigrammes influencent-ils les nuages de mots ?

Maintenant que vous avez créé une DTM de bigrammes, vous pouvez l’examiner et recréer un nuage de mots. La nouvelle méthode de tokenisation affecte non seulement les matrices, mais aussi toutes les visualisations ou modèles basés sur ces matrices.

Vous vous souvenez que « Marvin » et « Gaye » étaient des termes séparés dans le nuage de mots sur le chardonnay ? Avec les bigrammes, la tokenisation récupère toutes les combinaisons de deux mots. Observez ce qui arrive au nuage de mots dans cet exercice.

Cet exercice utilise str_subset de stringr. Gardez à l’esprit que d’autres cours DataCamp couvrent les expressions régulières plus en détail. Pour rappel, l’expression régulière ^ correspond à la position de début au sein des bigrammes de l’exercice.

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Les tweets sur le chardonnay ont été nettoyés et organisés dans une DTM appelée bigram_dtm.

Créez bigram_dtm_m en convertissant bigram_dtm en matrice.
Créez un objet freq contenant les fréquences des mots en appliquant colSums() à bigram_dtm_m.
Extrayez le vecteur de caractères des combinaisons de mots avec names(freq) et assignez le résultat à bi_words.
Passez bi_words à str_subset() avec le motif de correspondance "^marvin" pour examiner tous les bigrammes commençant par « marvin ».
Tracez un simple wordcloud() en passant bi_words, freq et max.words = 15 à la fonction.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)

Modifier et exécuter le code