Normalizar las críticas
Es hora de extraer algunas palabras importantes de tu conjunto de datos de críticas de la película. Primero tienes que normalizarlas y, a continuación, contar su frecuencia. Parte de la normalización supone convertir todas las letras de las palabras en minúsculas, eliminar los caracteres especiales y extraer la raíz de una palabra para que cuentes las variantes como una sola.
Imagina que tienes las siguientes críticas: The movie surprises me very much
y Marvel movies always surprise their audience
. Si cuentas la frecuencia de las palabras, contarás surprises
una vez y surprise
una vez. Sin embargo, el verbo surprise
aparece en ambas, y su frecuencia debe ser 2.
El texto de la crítica de una película ya está guardado en la variable movie
como ejemplo. Puedes utilizar print(movie)
para ver la variable en el shell IPython.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Convert to lowercase and print the result
movie_lower = ____
print(____)