Feature-extractie & analyse: amzn_cons
Je gaat dit nu vergelijken met de corpus amzn_cons_corp in een andere bigram-TDM. Natuurlijk verwacht je andere woordgroepen in je wordcloud te zien.
Je gebruikt opnieuw deze aangepaste functie om je bigramfeatures voor de visual te extraheren:
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
amzn_c_tdmdooramzn_cons_corpom te zetten naar eenTermDocumentMatrixen de bigramfunctie op te nemen metcontrol = list(tokenize = tokenizer). - Maak
amzn_c_tdm_mals een matrixversie vanamzn_c_tdm. - Maak
amzn_c_freqdoor metrowSums()de termfrequenties uitamzn_c_tdm_mte halen. - Maak een
wordcloud()metnames(amzn_c_freq)en de waardenamzn_c_freq. Gebruik ook de argumentenmax.words = 25encolor = "red".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___