Erste SchritteKostenlos loslegen

Verbinden mit Bewertungen

In der Videoübung hast du gesehen, wie du Transformationen in PySpark verwendest, indem du die Tabellen film und ratings verbindest, um eine neue Spalte zu erstellen, in der die durchschnittliche Bewertung pro Kunde gespeichert wird. In dieser Übung wirst du weitere Synergien zwischen den Tabellen film und ratings schaffen, indem du die gleichen Techniken anwendest, die du in der Videoübung gelernt hast, um die durchschnittliche Bewertung für jeden Film zu berechnen.

Der PySpark DataFrame mit Filmen, film_df, und der PySpark DataFrame mit Bewertungen, rating_df, sind in deinem Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Einführung in die Datentechnik

Kurs anzeigen

Anleitung zur Übung

  • Nimm die durchschnittliche Bewertung pro film_id und ordne das Ergebnis ratings_per_film_df zu.
  • Vervollständige die Anweisung .join(), um die Spalte film_id zu verknüpfen.
  • Zeige die ersten 5 Ergebnisse des resultierenden DataFrames an.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Bearbeiten und Ausführen von Code