Aplicar stemming a reseñas en español

Quizás recuerdes que en un capítulo anterior usamos un paquete de detección de idioma para identificar la lengua de distintas reseñas de productos de Amazon. En este ejercicio, primero detectarás los idiomas en non_english_reviews. Las reseñas están en varios idiomas, pero seleccionarás SOLO las que estén en español. Si has olvidado algunos conceptos, puedes volver al vídeo sobre detección de idiomas extranjeros.

En el segundo paso, crearás tokens de palabras a partir de las reseñas en español y les aplicarás stemming usando un stemmer SnowBall para el español. El paquete de detección de idioma no es perfecto, por desgracia. Por tanto, es posible que a veces el idioma detectado no sea correcto.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']

Editar y ejecutar código