Addestramento del modello e predizioni
Dopo aver diviso i dati in training e test, nella seconda parte dell'esercizio addestrerai l'algoritmo ALS usando i dati di training. L'algoritmo ALS di PySpark MLlib ha i seguenti parametri obbligatori: rank (il numero di fattori latenti nel modello) e iterations (il numero di iterazioni da eseguire). Dopo l'addestramento del modello ALS, puoi usare il modello per predire i rating sui dati di test. Per farlo, fornirai le colonne utente e item dal dataset di test e infine restituirai l'elenco di 2 righe dell'output di predictAll().
Ricorda: hai a disposizione SparkContext sc; training_data e test_data sono già presenti nel tuo workspace.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Addestra l'algoritmo ALS con i dati di training e i parametri configurati (
rank= 10 eiterations= 10). - Elimina la colonna
ratingnei dati di test, che è la terza colonna. - Metti alla prova il modello predicendo il rating dai dati di test.
- Restituisci un elenco di due righe con i rating predetti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)