Parcimonie de matrice
Un problème courant avec les jeux de données de notes du monde réel est que la plupart des utilisateurs n’ont pas noté la plupart des éléments, et la plupart des éléments n’ont été notés que par un petit nombre d’utilisateurs. Il en résulte un DataFrame très vide, ou parcimonieux.
Dans cet exercice, vous allez calculer à quel point les données de notes movie_lens sont parcimonieuses en comptant le nombre de cellules occupées et en le comparant à la taille du DataFrame complet.
Le DataFrame user_ratings_df que vous avez utilisé dans les exercices précédents, contenant une ligne par utilisateur et une colonne par film, a été chargé pour vous.
Cet exercice fait partie du cours
Créer des moteurs de recommandation en Python
Instructions
- Comptez le nombre de cellules non vides dans
user_ratings_dfet stockez le résultat danssparsity_count. - Comptez le nombre total de cellules dans le DataFrame
user_ratings_dfet stockez-le dansfull_count. - Calculez la parcimonie du DataFrame en divisant le nombre de cellules non vides par le nombre total de cellules et affichez le résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()
# Count all cells
full_count = user_ratings_df.____
# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)