ComenzarEmpieza gratis

Detección de idioma en reseñas de productos

Vas a practicar la detección de idioma con un conjunto de datos pequeño llamado non_english_reviews. Es una muestra de reseñas no escritas en inglés del conjunto de reseñas de productos de Amazon.

Vas a iterar por las filas del conjunto de datos, detectar el idioma de cada fila y añadirlo a una lista vacía. Hay que limpiar la lista para que solo contenga el idioma de la reseña, como 'en' para inglés, en lugar de la salida habitual en:0.9987654. Recuerda que la función de detección de idioma puede detectar más de un idioma y que el primer elemento de la lista devuelta es el candidato más probable. Por último, asignarás la lista a una columna nueva.

La lógica es la misma que se usó en las diapositivas y en el ejercicio anterior, pero en lugar de aplicar la función a una lista, trabajarás con un conjunto de datos.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

  • Itera por las filas del conjunto de datos non_english_reviews.
  • Dentro del bucle, detecta el idioma de la segunda columna del conjunto de datos.
  • Limpia la cadena dividiéndola por : dentro de la expresión de la lista por comprensión.
  • Por último, asigna la lista limpia a una columna nueva.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())
Editar y ejecutar código