Derecelendirmelerle birleştirme
Video egzersizinde, film ve ratings tablolarını birleştirip müşteri başına ortalama puanı saklayan yeni bir sütun oluşturmak için PySpark dönüşümlerini nasıl kullanacağını gördün.
Bu egzersizde, video egzersizinde öğrendiğin aynı teknikleri kullanarak her film için ortalama puanı hesaplayarak film ve ratings tabloları arasında daha fazla sinerji oluşturacaksın.
Filmleri içeren PySpark DataFrame'i film_df ve derecelendirmeleri içeren PySpark DataFrame'i rating_df çalışma alanında mevcut.
Bu egzersiz
Data Engineering'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
film_idbaşına ortalama puanı al ve sonucuratings_per_film_dfdeğişkenine ata..join()ifadesinifilm_idsütununda birleştirme yapacak şekilde tamamla.- Ortaya çıkan DataFrame'in ilk
5sonucunu göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)