Aplicar stemming em avaliações em espanhol
Você deve se lembrar de que, em um capítulo anterior, usamos um pacote de detecção de idioma para identificar o idioma de diferentes avaliações de produtos da Amazon. Neste exercício, primeiro você vai detectar os idiomas em non_english_reviews. As avaliações estão em vários idiomas, mas você deve selecionar SOMENTE aquelas em espanhol. Se quiser, volte ao vídeo sobre detecção de idiomas estrangeiros caso tenha esquecido algum conceito.
No segundo passo, você vai criar tokens de palavras a partir das avaliações em espanhol e aplicar stemming usando um stemmer SnowBall para o idioma espanhol. Infelizmente, o pacote de detecção de idioma não é perfeito. Portanto, pode acontecer de o idioma detectado não estar correto em alguns casos.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']