Aplicar stemming em avaliações em espanhol

Você deve se lembrar de que, em um capítulo anterior, usamos um pacote de detecção de idioma para identificar o idioma de diferentes avaliações de produtos da Amazon. Neste exercício, primeiro você vai detectar os idiomas em non_english_reviews. As avaliações estão em vários idiomas, mas você deve selecionar SOMENTE aquelas em espanhol. Se quiser, volte ao vídeo sobre detecção de idiomas estrangeiros caso tenha esquecido algum conceito.

No segundo passo, você vai criar tokens de palavras a partir das avaliações em espanhol e aplicar stemming usando um stemmer SnowBall para o idioma espanhol. Infelizmente, o pacote de detecção de idioma não é perfeito. Portanto, pode acontecer de o idioma detectado não estar correto em alguns casos.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']

Editar e Executar Código