LoslegenKostenlos loslegen

Mit Bewertungen verknüpfen

In der Videoübung hast du gesehen, wie du Transformationen in PySpark nutzen kannst, indem du die Tabellen film und ratings zusammenführst, um eine neue Spalte zu erstellen, in der die durchschnittliche Bewertung pro Kunde gespeichert wird. In dieser Übung wirst du mehr Synergien zwischen den Tabellen film und ratings schaffen, indem du die gleichen Techniken anwendest, die du in der Videoübung gelernt hast, um die durchschnittliche Bewertung für jeden Film zu berechnen.

Der PySpark-DataFrame mit Filmen, film_df, und der PySpark-DataFrame mit Bewertungen, rating_df, sind in deinem Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Anleitung zur Übung

  • Nimm die durchschnittliche Bewertung pro film_id und speicher das Ergebnis unter ratings_per_film_df.
  • Vervollständige die Anweisung .join(), um eine Verknüpfung mit der Spalte film_id herzustellen.
  • Lass dir die ersten 5 Ergebnisse des resultierenden DataFrame anzeigen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Code bearbeiten und ausführen