BaşlayınÜcretsiz başlayın

Derecelendirmelerle birleştirme

Video egzersizinde, film ve ratings tablolarını birleştirip müşteri başına ortalama puanı saklayan yeni bir sütun oluşturmak için PySpark dönüşümlerini nasıl kullanacağını gördün. Bu egzersizde, video egzersizinde öğrendiğin aynı teknikleri kullanarak her film için ortalama puanı hesaplayarak film ve ratings tabloları arasında daha fazla sinerji oluşturacaksın.

Filmleri içeren PySpark DataFrame'i film_df ve derecelendirmeleri içeren PySpark DataFrame'i rating_df çalışma alanında mevcut.

Bu egzersiz, kursun bir parçasıdır

Data Engineering'e Giriş

Kursa Göz Atın

Egzersiz talimatları

  • film_id başına ortalama puanı al ve sonucu ratings_per_film_df değişkenine ata.
  • .join() ifadesini film_id sütununda birleştirme yapacak şekilde tamamla.
  • Ortaya çıkan DataFrame'in ilk 5 sonucunu göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Kodu Düzenle ve Çalıştır