CommencerCommencer gratuitement

Normaliser vos données

Avant de pouvoir trouver les facteurs de la matrice de notes à l’aide de la décomposition en valeurs singulières, vous devez « décentrer » (ou centrer) la matrice en soustrayant, pour chaque ligne, sa moyenne à chacune des valeurs de cette ligne.

Dans cet exercice, vous allez commencer à préparer le DataFrame des notes de films sur lequel vous travaillez afin de pouvoir effectuer une décomposition en valeurs singulières.

user_ratings_df contient une ligne par utilisateur et une colonne par film et a été chargé pour vous.

Cet exercice fait partie du cours

Créer des moteurs de recommandation en Python

Afficher le cours

Instructions

  • Calculez la note moyenne que chaque utilisateur a donnée sur l’ensemble des films qu’il a vus et stockez ces valeurs dans avg_ratings.
  • Soustrayez les moyennes de ligne à leurs lignes respectives et stockez le résultat dans user_ratings_centered.
  • Enfin, remplacez toutes les valeurs manquantes de user_ratings_centered par des zéros.
  • Affichez la moyenne de chaque colonne de user_ratings_centered pour montrer que les données ont été décentrées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get the average rating for each user 
avg_ratings = user_ratings_df.____(axis=1)

# Center each user's ratings around 0
user_ratings_centered = user_ratings_df.____(____, axis=1)

# Fill in all missing values with 0s
user_ratings_centered.____(0, inplace=True)

# Print the mean of each column
print(user_ratings_centered.____(axis=1))
Modifier et exécuter le code