Inspanning van auteur beoordelen

Auteurs gebruiken vaak meer woorden wanneer ze ergens gepassioneerd over zijn. Een boze vliegtuigpassagier schrijft bijvoorbeeld een langere review naarmate de (ervaren) service slechter is. Omgekeerd voelt een minder betrokken passagier misschien niet de behoefte om veel tijd te besteden aan het schrijven van een review. Lange reviews kunnen het totale sentiment opblazen, omdat ze bij meer tekst automatisch meer positieve of negatieve taal bevatten. Deze code-oefening helpt om inspanning en sentiment te onderzoeken.

In deze oefening visualiseer je de relatie tussen inspanning en sentiment. Denk eraan dat je tibble met huuraccommodatie-reviews een id bevat en dat elk woord in een aparte rij staat. Daardoor geeft een eenvoudige count() op id het aantal gebruikte woorden in elke review. Daarna voeg je deze samenvatting samen met de positieve en negatieve data. Uiteindelijk maak je een spreidingsdiagram dat de lengte van de review van de auteur en de relatie met polariteit visualiseert.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Review tidy_reviews and pos_neg
tidy_reviews
pos_neg

pos_neg_pol <- tidy_reviews %>% 
  # Effort is measured as count by id
  ___(___) %>% 
  # Inner join to pos_neg
  ___(___) %>% 
  # Add polarity status
  ___(pol = ___(___, "___", "___"))

# Examine results
pos_neg_pol

Code bewerken en uitvoeren