Verbinden mit Bewertungen
In der Videoübung hast du gesehen, wie du Transformationen in PySpark verwendest, indem du die Tabellen film
und ratings
verbindest, um eine neue Spalte zu erstellen, in der die durchschnittliche Bewertung pro Kunde gespeichert wird.
In dieser Übung wirst du weitere Synergien zwischen den Tabellen film
und ratings
schaffen, indem du die gleichen Techniken anwendest, die du in der Videoübung gelernt hast, um die durchschnittliche Bewertung für jeden Film zu berechnen.
Der PySpark DataFrame mit Filmen, film_df
, und der PySpark DataFrame mit Bewertungen, rating_df
, sind in deinem Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Einführung in die Datentechnik
Anleitung zur Übung
- Nimm die durchschnittliche Bewertung pro
film_id
und ordne das Ergebnisratings_per_film_df
zu. - Vervollständige die Anweisung
.join()
, um die Spaltefilm_id
zu verknüpfen. - Zeige die ersten
5
Ergebnisse des resultierenden DataFrames an.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)