Feature-extractie & analyse: amzn_cons

Je gaat dit nu vergelijken met de corpus amzn_cons_corp in een andere bigram-TDM. Natuurlijk verwacht je andere woordgroepen in je wordcloud te zien.

Je gebruikt opnieuw deze aangepaste functie om je bigramfeatures voor de visual te extraheren:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Maak amzn_c_tdm door amzn_cons_corp om te zetten naar een TermDocumentMatrix en de bigramfunctie op te nemen met control = list(tokenize = tokenizer).
Maak amzn_c_tdm_m als een matrixversie van amzn_c_tdm.
Maak amzn_c_freq door met rowSums() de termfrequenties uit amzn_c_tdm_m te halen.
Maak een wordcloud() met names(amzn_c_freq) en de waarden amzn_c_freq. Gebruik ook de argumenten max.words = 25 en color = "red".

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___

Code bewerken en uitvoeren