Aan de slagGa gratis aan de slag

Hoe beïnvloeden bigrammen wordclouds?

Nu je een bigram-DTM hebt gemaakt, kun je die bekijken en een wordcloud opnieuw maken. De nieuwe tokenisatiemethode beïnvloedt niet alleen de matrices, maar ook alle visualisaties of modellen die op de matrices zijn gebaseerd.

Weet je nog hoe "Marvin" en "Gaye" aparte termen waren in de chardonnay-wordcloud? Met bigram-tokenisatie pak je alle combinaties van twee woorden. Kijk wat er met de wordcloud gebeurt in deze oefening.

Deze oefening gebruikt str_subset uit stringr. Houd er rekening mee dat andere DataCamp-cursussen reguliere expressies uitgebreider behandelen. Ter herinnering: de reguliere expressie ^ komt overeen met de beginpositie binnen de bigrammen van deze oefening.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

De chardonnay-tweets zijn opgeschoond en georganiseerd in een DTM met de naam bigram_dtm.

  • Maak bigram_dtm_m door bigram_dtm om te zetten naar een matrix.
  • Maak een object freq dat uit de woordfrequenties bestaat door colSums() toe te passen op bigram_dtm_m.
  • Extraheer de tekenreeksvector van woordcombinaties met names(freq) en ken het resultaat toe aan bi_words.
  • Geef bi_words door aan str_subset() met het matchpatroon "^marvin" om alle bigrammen te bekijken die beginnen met "marvin".
  • Plot een eenvoudige wordcloud() en geef bi_words, freq en max.words = 15 door aan de functie.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)
Code bewerken en uitvoeren