Detección de idioma en reseñas de productos
Vas a practicar la detección de idioma con un conjunto de datos pequeño llamado non_english_reviews. Es una muestra de reseñas no escritas en inglés del conjunto de reseñas de productos de Amazon.
Vas a iterar por las filas del conjunto de datos, detectar el idioma de cada fila y añadirlo a una lista vacía. Hay que limpiar la lista para que solo contenga el idioma de la reseña, como 'en' para inglés, en lugar de la salida habitual en:0.9987654. Recuerda que la función de detección de idioma puede detectar más de un idioma y que el primer elemento de la lista devuelta es el candidato más probable. Por último, asignarás la lista a una columna nueva.
La lógica es la misma que se usó en las diapositivas y en el ejercicio anterior, pero en lugar de aplicar la función a una lista, trabajarás con un conjunto de datos.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Itera por las filas del conjunto de datos
non_english_reviews. - Dentro del bucle, detecta el idioma de la segunda columna del conjunto de datos.
- Limpia la cadena dividiéndola por
:dentro de la expresión de la lista por comprensión. - Por último, asigna la lista limpia a una columna nueva.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from langdetect import detect_langs
languages = []
# Loop over the rows of the dataset and append
for row in ____(____(non_english_reviews)):
languages.append(____(non_english_reviews.iloc[row, 1]))
# Clean the list by splitting
languages = [str(lang).____(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = ____
print(non_english_reviews.head())