Dispersidad de la matriz
Un reto común con datos de valoraciones del mundo real es que la mayoría de usuarios no habrá valorado la mayoría de ítems, y la mayoría de ítems solo habrán sido valorados por un pequeño número de usuarios. Esto da lugar a un DataFrame muy vacío o disperso.
En este ejercicio, vas a calcular cuán dispersos son los datos de valoraciones de movie_lens contando el número de celdas ocupadas y comparándolo con el tamaño del DataFrame completo.
El DataFrame user_ratings_df que has usado en ejercicios anteriores, con una fila por usuario y una columna por película, ya está cargado para ti.
Este ejercicio forma parte del curso
Creación de motores de recomendación en Python
Instrucciones del ejercicio
- Cuenta el número de celdas no vacías en
user_ratings_dfy guarda el resultado comosparsity_count. - Cuenta el número total de celdas en el DataFrame
user_ratings_dfy guárdalo comofull_count. - Calcula la dispersidad del DataFrame dividiendo el número de celdas no vacías entre el número total de celdas e imprime el resultado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()
# Count all cells
full_count = user_ratings_df.____
# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)