Hoe beïnvloeden bigrammen wordclouds?
Nu je een bigram-DTM hebt gemaakt, kun je die bekijken en een wordcloud opnieuw maken. De nieuwe tokenisatiemethode beïnvloedt niet alleen de matrices, maar ook alle visualisaties of modellen die op de matrices zijn gebaseerd.
Weet je nog hoe "Marvin" en "Gaye" aparte termen waren in de chardonnay-wordcloud? Met bigram-tokenisatie pak je alle combinaties van twee woorden. Kijk wat er met de wordcloud gebeurt in deze oefening.
Deze oefening gebruikt str_subset uit stringr. Houd er rekening mee dat andere DataCamp-cursussen reguliere expressies uitgebreider behandelen. Ter herinnering: de reguliere expressie ^ komt overeen met de beginpositie binnen de bigrammen van deze oefening.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
De chardonnay-tweets zijn opgeschoond en georganiseerd in een DTM met de naam bigram_dtm.
- Maak
bigram_dtm_mdoorbigram_dtmom te zetten naar een matrix. - Maak een object
freqdat uit de woordfrequenties bestaat doorcolSums()toe te passen opbigram_dtm_m. - Extraheer de tekenreeksvector van woordcombinaties met
names(freq)en ken het resultaat toe aanbi_words. - Geef
bi_wordsdoor aanstr_subset()met het matchpatroon"^marvin"om alle bigrammen te bekijken die beginnen met "marvin". - Plot een eenvoudige
wordcloud()en geefbi_words,freqenmax.words = 15door aan de functie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)