Join con le valutazioni
Nell'esercizio video hai visto come usare le trasformazioni in PySpark effettuando un join tra le tabelle film e ratings per creare una nuova colonna che memorizza la valutazione media per cliente.
In questo esercizio creerai ulteriori sinergie tra le tabelle film e ratings usando le stesse tecniche viste nel video per calcolare la valutazione media per ogni film.
Il DataFrame PySpark con i film, film_df, e il DataFrame PySpark con le valutazioni, rating_df, sono disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Introduzione al Data Engineering
Istruzioni dell'esercizio
- Calcola la valutazione media per
film_ide assegna il risultato aratings_per_film_df. - Completa l'istruzione
.join()per unire sulla colonnafilm_id. - Mostra i primi
5risultati del DataFrame risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)