ComeçarComece gratuitamente

Normalização de resenhas

É hora de extrair algumas palavras importantes presentes em seu conjunto de dados de resenhas de filmes. Primeiro, você precisa normalizá-los e, em seguida, contar a frequência deles. Parte da normalização implica a conversão de todas as palavras em minúsculas, a remoção de caracteres especiais e a extração da raiz de uma palavra para que você conte as variantes como uma só.

Então, imagine que você tenha as seguintes resenhas: The movie surprises me very much e Marvel movies always surprise their audience. Se você contar a frequência das palavras, contará surprises uma vez e surprise uma vez. No entanto, o verbo surprise aparece em ambos e sua frequência deve ser dois.

O texto de uma resenha de filme, para apenas um exemplo, já foi salvo na variável movie. Você pode usar print(movie) para visualizar a variável no Shell IPython.

Este exercício faz parte do curso

Expressões regulares em Python

Ver Curso

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Convert to lowercase and print the result
movie_lower = ____
print(____)
Editar e executar código