Mit Bewertungen verknüpfen
In der Videoübung hast du gesehen, wie du Transformationen in PySpark nutzen kannst, indem du die Tabellen film
und ratings
zusammenführst, um eine neue Spalte zu erstellen, in der die durchschnittliche Bewertung pro Kunde gespeichert wird.
In dieser Übung wirst du mehr Synergien zwischen den Tabellen film
und ratings
schaffen, indem du die gleichen Techniken anwendest, die du in der Videoübung gelernt hast, um die durchschnittliche Bewertung für jeden Film zu berechnen.
Der PySpark-DataFrame mit Filmen, film_df
, und der PySpark-DataFrame mit Bewertungen, rating_df
, sind in deinem Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Anleitung zur Übung
- Nimm die durchschnittliche Bewertung pro
film_id
und speicher das Ergebnis unterratings_per_film_df
. - Vervollständige die Anweisung
.join()
, um eine Verknüpfung mit der Spaltefilm_id
herzustellen. - Lass dir die ersten
5
Ergebnisse des resultierenden DataFrame anzeigen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)