Vergelijkingswolk

In deze oefening maak je een bekende visual om woordfrequentie te begrijpen. Je bekijkt specifiek de meest voorkomende termen uit de samengevoegde positieve en negatieve documenten. Denk aan de TermDocumentMatrix all_tdm die je eerder hebt gemaakt. In plaats van 1000 huurrecensies bevat de matrix 2 documenten met alle recensies, gescheiden op basis van de polarity()-score.

Het is meestal handiger om de TDM om te zetten naar een matrix. Daarna hernoem je simpelweg de kolommen. Onthoud dat de functie colnames() aan de linkerkant van de toekenningsoperator wordt aangeroepen, zoals hieronder getoond.

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

Als dat klaar is, rangschik je de matrix opnieuw om de meest positieve en negatieve woorden te zien. Bekijk deze termen zodat je de conclusie-oefeningen kunt beantwoorden!

Tot slot visualiseer je de termen met comparison.cloud().

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Matrix
___

# Column names
colnames(___) <- ___

# Top pos words
order_by_pos <- order(all_tdm_m[, ___], decreasing = ___)

# Review top 10 pos words
all_tdm_m[order_by_pos, ] %>% head(___)

# Top neg words
order_by_neg <- order(___, decreasing = ___)

# Review top 10 neg words
all_tdm_m[___, ] %>% ___

Code bewerken en uitvoeren