Model eğitimi ve tahminler
Veriyi eğitim ve test olarak böldükten sonra, egzersizin ikinci kısmında eğitim verisini kullanarak ALS algoritmasını eğiteceksin. PySpark MLlib'in ALS algoritmasının zorunlu parametreleri şunlardır: rank (modeldeki gizil faktör sayısı) ve iterations (çalıştırılacak yineleme sayısı). ALS modelini eğittikten sonra, modeli test verisinden puanları tahmin etmek için kullanabilirsin. Bunun için test veri kümesinden kullanıcı ve öğe sütunlarını sağlayacak ve sonunda predictAll() çıktısının 2 satırlık listesini döndüreceksin.
Unutma, çalışma alanında SparkContext sc, training_data ve test_data zaten mevcut.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
- Eğitim verisi ve yapılandırılmış parametrelerle (
rank= 10 veiterations= 10) ALS algoritmasını eğit. - Test verisindeki üçüncü sütun olan
ratingsütununu düşür. - Modeli, test verisinden puanı tahmin ederek test et.
- Tahmin edilen puanların iki satırlık bir listesini döndür.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)