Pelatihan model dan prediksi
Setelah membagi data menjadi data pelatihan dan data uji, pada bagian kedua latihan ini, Anda akan melatih algoritma ALS menggunakan data pelatihan. Algoritma ALS di PySpark MLlib memiliki parameter wajib berikut — rank (jumlah faktor laten dalam model) dan iterations (jumlah iterasi yang dijalankan). Setelah melatih model ALS, Anda dapat menggunakan model untuk memprediksi rating dari data uji. Untuk itu, Anda akan menyediakan kolom user dan item dari himpunan data uji dan akhirnya mengembalikan daftar 2 baris keluaran predictAll().
Ingat, Anda sudah memiliki SparkContext sc, training_data, dan test_data di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Latih algoritma ALS dengan data pelatihan dan parameter yang dikonfigurasi (
rank= 10 daniterations= 10). - Hapus kolom
ratingpada data uji, yaitu kolom ketiga. - Uji model dengan memprediksi rating dari data uji.
- Kembalikan daftar dua baris dari rating yang diprediksi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)