Comment les bigrammes influencent-ils les nuages de mots ?
Maintenant que vous avez créé une DTM de bigrammes, vous pouvez l’examiner et recréer un nuage de mots. La nouvelle méthode de tokenisation affecte non seulement les matrices, mais aussi toutes les visualisations ou modèles basés sur ces matrices.
Vous vous souvenez que « Marvin » et « Gaye » étaient des termes séparés dans le nuage de mots sur le chardonnay ? Avec les bigrammes, la tokenisation récupère toutes les combinaisons de deux mots. Observez ce qui arrive au nuage de mots dans cet exercice.
Cet exercice utilise str_subset de stringr. Gardez à l’esprit que d’autres cours DataCamp couvrent les expressions régulières plus en détail. Pour rappel, l’expression régulière ^ correspond à la position de début au sein des bigrammes de l’exercice.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Les tweets sur le chardonnay ont été nettoyés et organisés dans une DTM appelée bigram_dtm.
- Créez
bigram_dtm_men convertissantbigram_dtmen matrice. - Créez un objet
freqcontenant les fréquences des mots en appliquantcolSums()àbigram_dtm_m. - Extrayez le vecteur de caractères des combinaisons de mots avec
names(freq)et assignez le résultat àbi_words. - Passez
bi_wordsàstr_subset()avec le motif de correspondance"^marvin"pour examiner tous les bigrammes commençant par « marvin ». - Tracez un simple
wordcloud()en passantbi_words,freqetmax.words = 15à la fonction.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)