IniziaInizia gratis

Join con le valutazioni

Nell'esercizio video hai visto come usare le trasformazioni in PySpark effettuando un join tra le tabelle film e ratings per creare una nuova colonna che memorizza la valutazione media per cliente. In questo esercizio creerai ulteriori sinergie tra le tabelle film e ratings usando le stesse tecniche viste nel video per calcolare la valutazione media per ogni film.

Il DataFrame PySpark con i film, film_df, e il DataFrame PySpark con le valutazioni, rating_df, sono disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Introduzione al Data Engineering

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola la valutazione media per film_id e assegna il risultato a ratings_per_film_df.
  • Completa l'istruzione .join() per unire sulla colonna film_id.
  • Mostra i primi 5 risultati del DataFrame risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Modifica ed esegui il codice