Normalização de resenhas
É hora de extrair algumas palavras importantes presentes em seu conjunto de dados de resenhas de filmes. Primeiro, você precisa normalizá-los e, em seguida, contar a frequência deles. Parte da normalização implica a conversão de todas as palavras em minúsculas, a remoção de caracteres especiais e a extração da raiz de uma palavra para que você conte as variantes como uma só.
Então, imagine que você tenha as seguintes resenhas: The movie surprises me very much
e Marvel movies always surprise their audience
. Se você contar a frequência das palavras, contará surprises
uma vez e surprise
uma vez. No entanto, o verbo surprise
aparece em ambos e sua frequência deve ser dois.
O texto de uma resenha de filme, para apenas um exemplo, já foi salvo na variável movie
. Você pode usar print(movie)
para visualizar a variável no Shell IPython.
Este exercício faz parte do curso
Expressões regulares em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Convert to lowercase and print the result
movie_lower = ____
print(____)