Melakukan join dengan ratings
Dalam latihan video, Anda melihat cara menggunakan transformasi di PySpark dengan melakukan join pada tabel film dan ratings untuk membuat kolom baru yang menyimpan rata-rata rating per pelanggan.
Pada latihan ini, Anda akan membangun sinergi lebih lanjut antara tabel film dan ratings dengan menggunakan teknik yang sama seperti pada latihan video untuk menghitung rata-rata rating untuk setiap film.
PySpark DataFrame berisi film, film_df, dan PySpark DataFrame berisi rating, rating_df, telah tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Pengantar Data Engineering
Petunjuk latihan
- Ambil mean rating per
film_id, dan simpan hasilnya keratings_per_film_df. - Lengkapi pernyataan
.join()untuk melakukan join pada kolomfilm_id. - Tampilkan
5hasil pertama dari DataFrame yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)