Dispersidad de la matriz

Un reto común con datos de valoraciones del mundo real es que la mayoría de usuarios no habrá valorado la mayoría de ítems, y la mayoría de ítems solo habrán sido valorados por un pequeño número de usuarios. Esto da lugar a un DataFrame muy vacío o disperso.

En este ejercicio, vas a calcular cuán dispersos son los datos de valoraciones de movie_lens contando el número de celdas ocupadas y comparándolo con el tamaño del DataFrame completo. El DataFrame user_ratings_df que has usado en ejercicios anteriores, con una fila por usuario y una columna por película, ya está cargado para ti.

Este ejercicio forma parte del curso

Creación de motores de recomendación en Python

Ver curso

Instrucciones del ejercicio

Cuenta el número de celdas no vacías en user_ratings_df y guarda el resultado como sparsity_count.
Cuenta el número total de celdas en el DataFrame user_ratings_df y guárdalo como full_count.
Calcula la dispersidad del DataFrame dividiendo el número de celdas no vacías entre el número total de celdas e imprime el resultado.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()

# Count all cells
full_count = user_ratings_df.____

# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)

Editar y ejecutar código