Detecção de idioma em avaliações de produtos
Você vai praticar a detecção de idioma em um pequeno conjunto de dados chamado non_english_reviews. Ele é uma amostra de avaliações não escritas em inglês do conjunto de avaliações de produtos da Amazon.
Você vai iterar pelas linhas do conjunto de dados, detectar o idioma de cada linha e adicioná-lo a uma lista vazia. A lista precisa ser limpa para conter apenas o código do idioma da avaliação, como 'en' para inglês, em vez da saída comum en:0.9987654. Lembre-se de que a função de detecção de idioma pode identificar mais de um idioma e o primeiro item da lista retornada é o candidato mais provável. Por fim, você vai atribuir a lista a uma nova coluna.
A lógica é a mesma usada nos slides e no exercício anterior, mas, em vez de aplicar a função a uma lista, você vai trabalhar com um conjunto de dados.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Itere sobre as linhas do conjunto de dados
non_english_reviews. - Dentro do loop, detecte o idioma da segunda coluna do conjunto de dados.
- Limpe a string dividindo por
:dentro da expressão de list comprehension. - Por fim, atribua a lista limpa a uma nova coluna.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from langdetect import detect_langs
languages = []
# Loop over the rows of the dataset and append
for row in ____(____(non_english_reviews)):
languages.append(____(non_english_reviews.iloc[row, 1]))
# Clean the list by splitting
languages = [str(lang).____(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = ____
print(non_english_reviews.head())