Model eğitimi ve tahminler
Veriyi eğitim ve test olarak böldükten sonra, egzersizin ikinci kısmında eğitim verisini kullanarak ALS algoritmasını eğiteceksin. PySpark MLlib'in ALS algoritmasının zorunlu parametreleri şunlardır: rank (modeldeki gizil faktör sayısı) ve iterations (çalıştırılacak yineleme sayısı). ALS modelini eğittikten sonra, modeli test verisinden puanları tahmin etmek için kullanabilirsin. Bunun için test veri kümesinden kullanıcı ve öğe sütunlarını sağlayacak ve sonunda predictAll() çıktısının 2 satırlık listesini döndüreceksin.
Unutma, çalışma alanında SparkContext sc, training_data ve test_data zaten mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
- Eğitim verisi ve yapılandırılmış parametrelerle (
rank= 10 veiterations= 10) ALS algoritmasını eğit. - Test verisindeki üçüncü sütun olan
ratingsütununu düşür. - Modeli, test verisinden puanı tahmin ederek test et.
- Tahmin edilen puanların iki satırlık bir listesini döndür.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)