Applica lo stemming alle recensioni in spagnolo
Ricorderai che in un capitolo precedente abbiamo usato un pacchetto di rilevamento della lingua per determinare la lingua di diverse recensioni di prodotti Amazon. In questo esercizio, per prima cosa rileverai le lingue in non_english_reviews. Le recensioni sono in più lingue, ma selezionerai SOLO quelle in spagnolo. Se ti serve un ripasso, torna pure al video sul rilevamento delle lingue straniere.
Nel secondo passaggio, creerai i token di parola dalle recensioni in spagnolo e applicherai lo stemming usando uno SnowBall stemmer per la lingua spagnola. Purtroppo, il pacchetto di rilevamento linguistico non è perfetto. Quindi è possibile che a volte la lingua rilevata non sia corretta.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']