ComenzarEmpieza gratis

Dispersidad de la matriz

Un reto común con datos de valoraciones del mundo real es que la mayoría de usuarios no habrá valorado la mayoría de ítems, y la mayoría de ítems solo habrán sido valorados por un pequeño número de usuarios. Esto da lugar a un DataFrame muy vacío o disperso.

En este ejercicio, vas a calcular cuán dispersos son los datos de valoraciones de movie_lens contando el número de celdas ocupadas y comparándolo con el tamaño del DataFrame completo. El DataFrame user_ratings_df que has usado en ejercicios anteriores, con una fila por usuario y una columna por película, ya está cargado para ti.

Este ejercicio forma parte del curso

Creación de motores de recomendación en Python

Ver curso

Instrucciones del ejercicio

  • Cuenta el número de celdas no vacías en user_ratings_df y guarda el resultado como sparsity_count.
  • Cuenta el número total de celdas en el DataFrame user_ratings_df y guárdalo como full_count.
  • Calcula la dispersidad del DataFrame dividiendo el número de celdas no vacías entre el número total de celdas e imprime el resultado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()

# Count all cells
full_count = user_ratings_df.____

# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)
Editar y ejecutar código