Normaliser vos données
Avant de pouvoir trouver les facteurs de la matrice de notes à l’aide de la décomposition en valeurs singulières, vous devez « décentrer » (ou centrer) la matrice en soustrayant, pour chaque ligne, sa moyenne à chacune des valeurs de cette ligne.
Dans cet exercice, vous allez commencer à préparer le DataFrame des notes de films sur lequel vous travaillez afin de pouvoir effectuer une décomposition en valeurs singulières.
user_ratings_df contient une ligne par utilisateur et une colonne par film et a été chargé pour vous.
Cet exercice fait partie du cours
Créer des moteurs de recommandation en Python
Instructions
- Calculez la note moyenne que chaque utilisateur a donnée sur l’ensemble des films qu’il a vus et stockez ces valeurs dans
avg_ratings. - Soustrayez les moyennes de ligne à leurs lignes respectives et stockez le résultat dans
user_ratings_centered. - Enfin, remplacez toutes les valeurs manquantes de
user_ratings_centeredpar des zéros. - Affichez la moyenne de chaque colonne de
user_ratings_centeredpour montrer que les données ont été décentrées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Get the average rating for each user
avg_ratings = user_ratings_df.____(axis=1)
# Center each user's ratings around 0
user_ratings_centered = user_ratings_df.____(____, axis=1)
# Fill in all missing values with 0s
user_ratings_centered.____(0, inplace=True)
# Print the mean of each column
print(user_ratings_centered.____(axis=1))