BaşlayınÜcretsiz Başlayın

Model eğitimi ve tahminler

Veriyi eğitim ve test olarak böldükten sonra, egzersizin ikinci kısmında eğitim verisini kullanarak ALS algoritmasını eğiteceksin. PySpark MLlib'in ALS algoritmasının zorunlu parametreleri şunlardır: rank (modeldeki gizil faktör sayısı) ve iterations (çalıştırılacak yineleme sayısı). ALS modelini eğittikten sonra, modeli test verisinden puanları tahmin etmek için kullanabilirsin. Bunun için test veri kümesinden kullanıcı ve öğe sütunlarını sağlayacak ve sonunda predictAll() çıktısının 2 satırlık listesini döndüreceksin.

Unutma, çalışma alanında SparkContext sc, training_data ve test_data zaten mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Eğitim verisi ve yapılandırılmış parametrelerle (rank = 10 ve iterations = 10) ALS algoritmasını eğit.
  • Test verisindeki üçüncü sütun olan rating sütununu düşür.
  • Modeli, test verisinden puanı tahmin ederek test et.
  • Tahmin edilen puanların iki satırlık bir listesini döndür.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)
Kodu Düzenle ve Çalıştır