Inspanning van auteur beoordelen
Auteurs gebruiken vaak meer woorden wanneer ze ergens gepassioneerd over zijn. Een boze vliegtuigpassagier schrijft bijvoorbeeld een langere review naarmate de (ervaren) service slechter is. Omgekeerd voelt een minder betrokken passagier misschien niet de behoefte om veel tijd te besteden aan het schrijven van een review. Lange reviews kunnen het totale sentiment opblazen, omdat ze bij meer tekst automatisch meer positieve of negatieve taal bevatten. Deze code-oefening helpt om inspanning en sentiment te onderzoeken.
In deze oefening visualiseer je de relatie tussen inspanning en sentiment. Denk eraan dat je tibble met huuraccommodatie-reviews een id bevat en dat elk woord in een aparte rij staat. Daardoor geeft een eenvoudige count() op id het aantal gebruikte woorden in elke review. Daarna voeg je deze samenvatting samen met de positieve en negatieve data. Uiteindelijk maak je een spreidingsdiagram dat de lengte van de review van de auteur en de relatie met polariteit visualiseert.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Review tidy_reviews and pos_neg
tidy_reviews
pos_neg
pos_neg_pol <- tidy_reviews %>%
# Effort is measured as count by id
___(___) %>%
# Inner join to pos_neg
___(___) %>%
# Add polarity status
___(pol = ___(___, "___", "___"))
# Examine results
pos_neg_pol