Aplicar stemming a reseñas en español
Quizás recuerdes que en un capítulo anterior usamos un paquete de detección de idioma para identificar la lengua de distintas reseñas de productos de Amazon. En este ejercicio, primero detectarás los idiomas en non_english_reviews. Las reseñas están en varios idiomas, pero seleccionarás SOLO las que estén en español. Si has olvidado algunos conceptos, puedes volver al vídeo sobre detección de idiomas extranjeros.
En el segundo paso, crearás tokens de palabras a partir de las reseñas en español y les aplicarás stemming usando un stemmer SnowBall para el español. El paquete de detección de idioma no es perfecto, por desgracia. Por tanto, es posible que a veces el idioma detectado no sea correcto.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']