MulaiMulai sekarang secara gratis

Melakukan join dengan ratings

Dalam latihan video, Anda melihat cara menggunakan transformasi di PySpark dengan melakukan join pada tabel film dan ratings untuk membuat kolom baru yang menyimpan rata-rata rating per pelanggan. Pada latihan ini, Anda akan membangun sinergi lebih lanjut antara tabel film dan ratings dengan menggunakan teknik yang sama seperti pada latihan video untuk menghitung rata-rata rating untuk setiap film.

PySpark DataFrame berisi film, film_df, dan PySpark DataFrame berisi rating, rating_df, telah tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Petunjuk latihan

  • Ambil mean rating per film_id, dan simpan hasilnya ke ratings_per_film_df.
  • Lengkapi pernyataan .join() untuk melakukan join pada kolom film_id.
  • Tampilkan 5 hasil pertama dari DataFrame yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Edit dan Jalankan Kode