Detección de idioma en reseñas de productos

Vas a practicar la detección de idioma con un conjunto de datos pequeño llamado non_english_reviews. Es una muestra de reseñas no escritas en inglés del conjunto de reseñas de productos de Amazon.

Vas a iterar por las filas del conjunto de datos, detectar el idioma de cada fila y añadirlo a una lista vacía. Hay que limpiar la lista para que solo contenga el idioma de la reseña, como 'en' para inglés, en lugar de la salida habitual en:0.9987654. Recuerda que la función de detección de idioma puede detectar más de un idioma y que el primer elemento de la lista devuelta es el candidato más probable. Por último, asignarás la lista a una columna nueva.

La lógica es la misma que se usó en las diapositivas y en el ejercicio anterior, pero en lugar de aplicar la función a una lista, trabajarás con un conjunto de datos.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

Itera por las filas del conjunto de datos non_english_reviews.
Dentro del bucle, detecta el idioma de la segunda columna del conjunto de datos.
Limpia la cadena dividiéndola por : dentro de la expresión de la lista por comprensión.
Por último, asigna la lista limpia a una columna nueva.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())

Editar y ejecutar código