MulaiMulai sekarang secara gratis

Pelatihan model dan prediksi

Setelah membagi data menjadi data pelatihan dan data uji, pada bagian kedua latihan ini, Anda akan melatih algoritma ALS menggunakan data pelatihan. Algoritma ALS di PySpark MLlib memiliki parameter wajib berikut — rank (jumlah faktor laten dalam model) dan iterations (jumlah iterasi yang dijalankan). Setelah melatih model ALS, Anda dapat menggunakan model untuk memprediksi rating dari data uji. Untuk itu, Anda akan menyediakan kolom user dan item dari himpunan data uji dan akhirnya mengembalikan daftar 2 baris keluaran predictAll().

Ingat, Anda sudah memiliki SparkContext sc, training_data, dan test_data di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Latih algoritma ALS dengan data pelatihan dan parameter yang dikonfigurasi (rank = 10 dan iterations = 10).
  • Hapus kolom rating pada data uji, yaitu kolom ketiga.
  • Uji model dengan memprediksi rating dari data uji.
  • Kembalikan daftar dua baris dari rating yang diprediksi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)
Edit dan Jalankan Kode