Corpora op basis van polariteit maken
In deze oefening voer je Stap 3 uit van de text mining-workflow. Hoewel qdap geen tidy package is, ga je met mutate() een nieuwe kolom maken op basis van de geretourneerde polarity-lijst die de scores voor alle polariteit weergeeft (dat is trouwens een hint). In hoofdstuk 3 gebruikten we een eigen functie pol_subsections die alleen base R-declaraties gebruikt. In lijn met de tidy-principes gebruik je in deze oefening echter filter() en maak je kennis met pull(). De functie pull() werkt zoals [[ om één variabele te extraheren.
Zodra je gesplitst hebt, voeg je alle positieve en negatieve opmerkingen samen tot twee grotere documenten die alle woorden uit de positieve en negatieve verhuurreviews vertegenwoordigen.
Tot slot maak je een Term Frequency Inverse Document Frequency (TFIDF) gewogen Term Document Matrix (TDM). Omdat de code in deze oefening start vanuit een tidy-structuur, worden enkele functies geleend van tm en samen met de %>%-operator gebruikt om de stijl consistent te houden. Als je de basis van het tm-package niet kent, bekijk dan de cursus Text Mining with Bag-of-Words in R. In plaats van het aantal keren dat een woord voorkomt te tellen (frequentie), worden de waarden in de TDM afgestraft voor overmatig gebruikte termen, wat helpt om niet-informatieve woorden te verminderen.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
pos_terms <- bos_reviews %>%
# Add polarity column
___(polarity = ___) %>%
# Filter for positive polarity
___(___) %>%
# Extract comments column
___(___) %>%
# Paste and collapse
___(collapse = "___")