BaşlayınÜcretsiz Başlayın

Derecelendirmelerle birleştirme

Video egzersizinde, film ve ratings tablolarını birleştirip müşteri başına ortalama puanı saklayan yeni bir sütun oluşturmak için PySpark dönüşümlerini nasıl kullanacağını gördün. Bu egzersizde, video egzersizinde öğrendiğin aynı teknikleri kullanarak her film için ortalama puanı hesaplayarak film ve ratings tabloları arasında daha fazla sinerji oluşturacaksın.

Filmleri içeren PySpark DataFrame'i film_df ve derecelendirmeleri içeren PySpark DataFrame'i rating_df çalışma alanında mevcut.

Bu egzersiz

Data Engineering'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • film_id başına ortalama puanı al ve sonucu ratings_per_film_df değişkenine ata.
  • .join() ifadesini film_id sütununda birleştirme yapacak şekilde tamamla.
  • Ortaya çıkan DataFrame'in ilk 5 sonucunu göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Kodu Düzenle ve Çalıştır