Voer stemming uit op Spaanse reviews
Je herinnert je vast dat we in een eerdere hoofdstuk een pakket voor taaldetectie gebruikten om de taal van verschillende Amazon-productreviews te bepalen. In deze oefening detecteer je eerst de talen in non_english_reviews. De reviews zijn in meerdere talen, maar je selecteert ALLEEN die in het Spaans. Bekijk gerust de video over taaldetectie nog eens als je sommige concepten bent vergeten.
In de tweede stap maak je wordtokens van de Spaanse reviews en voer je stemming uit met een SnowBall-stemmer voor het Spaans. Het taaldetectiepakket is helaas niet perfect. Het kan dus gebeuren dat de gedetecteerde taal soms niet klopt.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']