Joindre les notes
Dans l'exercice vidéo, vous avez vu comment utiliser les transformations dans PySpark en joignant les tableaux film
et ratings
pour créer une nouvelle colonne qui stocke l'évaluation moyenne par client.
Dans cet exercice, vous allez créer davantage de synergies entre les tableaux film
et ratings
en utilisant les mêmes techniques que celles que vous avez apprises dans l'exercice vidéo pour calculer la note moyenne de chaque film.
Le PySpark DataFrame avec les films, film_df
et le PySpark DataFrame avec les évaluations, rating_df
, sont disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à l'ingénierie des données
Instructions
- Prenez la note moyenne par
film_id
, et attribuez le résultat àratings_per_film_df
. - Complétez l'instruction
.join()
pour la joindre à la colonnefilm_id
. - Affichez les premiers
5
résultats du DataFrame obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)