Applica lo stemming alle recensioni in spagnolo

Ricorderai che in un capitolo precedente abbiamo usato un pacchetto di rilevamento della lingua per determinare la lingua di diverse recensioni di prodotti Amazon. In questo esercizio, per prima cosa rileverai le lingue in non_english_reviews. Le recensioni sono in più lingue, ma selezionerai SOLO quelle in spagnolo. Se ti serve un ripasso, torna pure al video sul rilevamento delle lingue straniere.

Nel secondo passaggio, creerai i token di parola dalle recensioni in spagnolo e applicherai lo stemming usando uno SnowBall stemmer per la lingua spagnola. Purtroppo, il pacchetto di rilevamento linguistico non è perfetto. Quindi è possibile che a volte la lingua rilevata non sia corretta.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']

Modifica ed esegui il codice