Feature-extractie & analyse: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp en goog_cons_corp zijn allemaal voorbewerkt, dus je kunt nu de features extraheren die je wilt onderzoeken. Omdat je de bag-of-words-methode gebruikt, besluit je een bigram-TermDocumentMatrix te maken voor Amazon's corpus met positieve reviews, amzn_pros_corp. Van daaruit kun je snel een wordcloud() maken om te begrijpen welke uitdrukkingen mensen positief associëren met werken bij Amazon.

De onderstaande functie gebruikt RWeka om twee termen te tokenizen en wordt achter de schermen in deze oefening gebruikt.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Maak amzn_p_tdm als een TermDocumentMatrix op basis van amzn_pros_corp. Voeg zeker control = list(tokenize = tokenizer) toe zodat de termen bigrammen zijn.
Maak amzn_p_tdm_m van amzn_p_tdm met de functie as.matrix().
Maak amzn_p_freq om de termfrequenties uit amzn_p_tdm_m te halen.
Maak een wordcloud() met names(amzn_p_freq) als de woorden, amzn_p_freq als hun frequenties, en max.words = 25 en color = "blue" voor de opmaak.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Code bewerken en uitvoeren