ComeçarComece de graça

Detecção de idioma em avaliações de produtos

Você vai praticar a detecção de idioma em um pequeno conjunto de dados chamado non_english_reviews. Ele é uma amostra de avaliações não escritas em inglês do conjunto de avaliações de produtos da Amazon.

Você vai iterar pelas linhas do conjunto de dados, detectar o idioma de cada linha e adicioná-lo a uma lista vazia. A lista precisa ser limpa para conter apenas o código do idioma da avaliação, como 'en' para inglês, em vez da saída comum en:0.9987654. Lembre-se de que a função de detecção de idioma pode identificar mais de um idioma e o primeiro item da lista retornada é o candidato mais provável. Por fim, você vai atribuir a lista a uma nova coluna.

A lógica é a mesma usada nos slides e no exercício anterior, mas, em vez de aplicar a função a uma lista, você vai trabalhar com um conjunto de dados.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Itere sobre as linhas do conjunto de dados non_english_reviews.
  • Dentro do loop, detecte o idioma da segunda coluna do conjunto de dados.
  • Limpe a string dividindo por : dentro da expressão de list comprehension.
  • Por fim, atribua a lista limpa a uma nova coluna.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())
Editar e executar o código