Derecelendirmelerle birleştirme
Video egzersizinde, film ve ratings tablolarını birleştirip müşteri başına ortalama puanı saklayan yeni bir sütun oluşturmak için PySpark dönüşümlerini nasıl kullanacağını gördün.
Bu egzersizde, video egzersizinde öğrendiğin aynı teknikleri kullanarak her film için ortalama puanı hesaplayarak film ve ratings tabloları arasında daha fazla sinerji oluşturacaksın.
Filmleri içeren PySpark DataFrame'i film_df ve derecelendirmeleri içeren PySpark DataFrame'i rating_df çalışma alanında mevcut.
Bu egzersiz, kursun bir parçasıdır
Data Engineering'e Giriş
Egzersiz talimatları
film_idbaşına ortalama puanı al ve sonucuratings_per_film_dfdeğişkenine ata..join()ifadesinifilm_idsütununda birleştirme yapacak şekilde tamamla.- Ortaya çıkan DataFrame'in ilk
5sonucunu göster.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)