Aan de slagGa gratis aan de slag

Joinen met ratings

In de video-oefening zag je hoe je transformaties in PySpark gebruikt door de tabellen film en ratings te joinen om een nieuwe kolom te maken die de gemiddelde beoordeling per klant opslaat. In deze oefening ga je meer synergie creëren tussen de tabellen film en ratings door dezelfde technieken uit de video-oefening te gebruiken om de gemiddelde beoordeling voor elke film te berekenen.

De PySpark DataFrame met films, film_df, en de PySpark DataFrame met beoordelingen, rating_df, zijn beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Oefeninstructies

  • Neem de gemiddelde beoordeling per film_id en sla het resultaat op in ratings_per_film_df.
  • Maak het .join()-statement af om te joinen op de kolom film_id.
  • Toon de eerste 5 resultaten van de resulterende DataFrame.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Code bewerken en uitvoeren