Corpora op basis van polariteit maken

In deze oefening voer je Stap 3 uit van de text mining-workflow. Hoewel qdap geen tidy package is, ga je met mutate() een nieuwe kolom maken op basis van de geretourneerde polarity-lijst die de scores voor alle polariteit weergeeft (dat is trouwens een hint). In hoofdstuk 3 gebruikten we een eigen functie pol_subsections die alleen base R-declaraties gebruikt. In lijn met de tidy-principes gebruik je in deze oefening echter filter() en maak je kennis met pull(). De functie pull() werkt zoals [[ om één variabele te extraheren.

Zodra je gesplitst hebt, voeg je alle positieve en negatieve opmerkingen samen tot twee grotere documenten die alle woorden uit de positieve en negatieve verhuurreviews vertegenwoordigen.

Tot slot maak je een Term Frequency Inverse Document Frequency (TFIDF) gewogen Term Document Matrix (TDM). Omdat de code in deze oefening start vanuit een tidy-structuur, worden enkele functies geleend van tm en samen met de %>%-operator gebruikt om de stijl consistent te houden. Als je de basis van het tm-package niet kent, bekijk dan de cursus Text Mining with Bag-of-Words in R. In plaats van het aantal keren dat een woord voorkomt te tellen (frequentie), worden de waarden in de TDM afgestraft voor overmatig gebruikte termen, wat helpt om niet-informatieve woorden te verminderen.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

pos_terms <- bos_reviews %>%
  # Add polarity column
  ___(polarity = ___) %>%
  # Filter for positive polarity
  ___(___) %>%
  # Extract comments column
  ___(___) %>% 
  # Paste and collapse
  ___(collapse = "___")

Code bewerken en uitvoeren