Voer stemming uit op Spaanse reviews

Je herinnert je vast dat we in een eerdere hoofdstuk een pakket voor taaldetectie gebruikten om de taal van verschillende Amazon-productreviews te bepalen. In deze oefening detecteer je eerst de talen in non_english_reviews. De reviews zijn in meerdere talen, maar je selecteert ALLEEN die in het Spaans. Bekijk gerust de video over taaldetectie nog eens als je sommige concepten bent vergeten.

In de tweede stap maak je wordtokens van de Spaanse reviews en voer je stemming uit met een SnowBall-stemmer voor het Spaans. Het taaldetectiepakket is helaas niet perfect. Het kan dus gebeuren dat de gedetecteerde taal soms niet klopt.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']

Code bewerken en uitvoeren