Jointure avec les évaluations
Dans la vidéo d’exercice, vous avez vu comment utiliser des transformations dans PySpark en joignant les tables film et ratings pour créer une nouvelle colonne qui stocke la note moyenne par client.
Dans cet exercice, vous allez créer davantage de synergies entre les tables film et ratings en utilisant les mêmes techniques vues dans la vidéo pour calculer la note moyenne pour chaque film.
Le DataFrame PySpark contenant les films, film_df, et le DataFrame PySpark contenant les évaluations, rating_df, sont disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Introduction au data engineering
Instructions
- Calculez la note moyenne par
film_idet affectez le résultat àratings_per_film_df. - Complétez l’instruction
.join()pour faire la jointure sur la colonnefilm_id. - Affichez les
5premiers résultats du DataFrame obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)