CommencerCommencer gratuitement

Joindre les notes

Dans l'exercice vidéo, vous avez vu comment utiliser les transformations dans PySpark en joignant les tableaux film et ratings pour créer une nouvelle colonne qui stocke l'évaluation moyenne par client. Dans cet exercice, vous allez créer davantage de synergies entre les tableaux film et ratings en utilisant les mêmes techniques que celles que vous avez apprises dans l'exercice vidéo pour calculer la note moyenne de chaque film.

Le PySpark DataFrame avec les films, film_df et le PySpark DataFrame avec les évaluations, rating_df, sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Instructions

  • Prenez la note moyenne par film_id, et attribuez le résultat à ratings_per_film_df.
  • Complétez l'instruction .join() pour la joindre à la colonne film_id.
  • Affichez les premiers 5 résultats du DataFrame obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Modifier et exécuter le code