ComenzarEmpieza gratis

Normalizar las críticas

Es hora de extraer algunas palabras importantes de tu conjunto de datos de críticas de la película. Primero tienes que normalizarlas y, a continuación, contar su frecuencia. Parte de la normalización supone convertir todas las letras de las palabras en minúsculas, eliminar los caracteres especiales y extraer la raíz de una palabra para que cuentes las variantes como una sola.

Imagina que tienes las siguientes críticas: The movie surprises me very much y Marvel movies always surprise their audience. Si cuentas la frecuencia de las palabras, contarás surprises una vez y surprise una vez. Sin embargo, el verbo surprise aparece en ambas, y su frecuencia debe ser 2.

El texto de la crítica de una película ya está guardado en la variable movie como ejemplo. Puedes utilizar print(movie) para ver la variable en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Ver curso

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Convert to lowercase and print the result
movie_lower = ____
print(____)
Editar y ejecutar código