Treemaps voor groepen documenten
Vaak werk je met documenten in groepen, zoals per auteur, product of bedrijf. In deze oefening leer je de tekst verkennen terwijl je de groepen in een compacte visual behoudt. Bij klantreviews per product wil je bijvoorbeeld meerdere dimensies tegelijk bekijken. Eerst kun je de polarity() van de reviews berekenen. Een andere dimensie is lengte. De lengte van een document kan iets zeggen over de emotionele intensiteit. Als een klant een korte "great shoes!" achterlaat, kun je afleiden dat die eigenlijk minder enthousiast is dan bij een langere positieve review. Je kunt reviews ook groeperen op producttype, zoals damesschoenen, herenschoenen en kinderschoenen. Met een treemap kun je al deze dimensies in één keer bekijken.
Voor tekstanalyse stelt elk vakje in een treemap een document voor, zoals een tweet. Documenten worden op een bepaalde manier gegroepeerd, bijvoorbeeld per auteur. De grootte van elk vakje wordt bepaald door een numerieke waarde, zoals het aantal woorden of letters. De individuele kleuren worden bepaald door een sentimentscore.
Nadat je de tibble hebt georganiseerd, gebruik je de treemap-bibliotheek met de functie treemap() om de visual te maken. In het onderstaande codevoorbeeld geef je de data, groeperingsvariabelen, grootte, kleur en andere stijlen op.
treemap(
data_frame,
index = c("group", "individual_document"),
vSize = "doc_length",
vColor = "avg_score",
type = "value",
title = "Sentiment Scores by Doc",
palette = c("red", "white", "green")
)
Het vooraf geladen object all_books bevat een gecombineerde, nette corpusstructuur met 4 Shakespeare-, 3 Melville- en 4 Twain-boeken. Op basis van de treemap moet je kunnen zien wie langere boeken schrijft, en wat de polariteit is van de auteur als geheel én per individueel boek.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
book_length <- all_books %>%
# Count number of words per book
___(___)
# Examine the results
book_length