Polariteit op echte tekst

Tot nu toe heb je de basis opgebouwd om positieve of negatieve intentie in tekst te beoordelen. Onthoud het volgende, zodat je zekerder bent van je resultaten.

De subjectiviteitlexicon is een vooraf gedefinieerde lijst met woorden die gekoppeld zijn aan emoties of positieve/negatieve gevoelens.
Je hoeft niet elk woord in een subjectiviteitlexicon op te sommen, omdat de wet van Zipf menselijke taalgebruik beschrijft.

Een snelle manier om te beginnen is de functie polarity() te gebruiken, die een ingebouwd subjectiviteitlexicon heeft.

De functie scant de tekst om woorden uit het lexicon te vinden. Vervolgens maakt hij een cluster rond een gevonden subjectiviteitswoord. Binnen dat cluster passen valentieverschuivers de score aan. Valentieverschuivers zijn woorden die de emotionele lading van het subjectiviteitswoord versterken of ontkennen. Zo is "well known" positief, terwijl "not well known" negatief is. Hier is "not" een ontkennende term die de emotionele lading van "well known" omdraait. Daarentegen gebruikt "very well known" een versterker die de positieve intentie vergroot.

De functie polarity() berekent daarna een score op basis van subjectiviteitstermen, valentieverschuivers en het totale aantal woorden in de passage. Deze oefening laat een eenvoudige polariteitsberekening zien. In de volgende video kijken we onder de motorkap van polarity() voor meer details.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Example statement
positive <- "DataCamp courses are good for learning"

# Calculate polarity of statement
(pos_score <-___(___))

Code bewerken en uitvoeren