CommencerCommencer gratuitement

Jointure avec les évaluations

Dans la vidéo d’exercice, vous avez vu comment utiliser des transformations dans PySpark en joignant les tables film et ratings pour créer une nouvelle colonne qui stocke la note moyenne par client. Dans cet exercice, vous allez créer davantage de synergies entre les tables film et ratings en utilisant les mêmes techniques vues dans la vidéo pour calculer la note moyenne pour chaque film.

Le DataFrame PySpark contenant les films, film_df, et le DataFrame PySpark contenant les évaluations, rating_df, sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Instructions

  • Calculez la note moyenne par film_id et affectez le résultat à ratings_per_film_df.
  • Complétez l’instruction .join() pour faire la jointure sur la colonne film_id.
  • Affichez les 5 premiers résultats du DataFrame obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Modifier et exécuter le code