Addestramento del modello e predizioni

Dopo aver diviso i dati in training e test, nella seconda parte dell'esercizio addestrerai l'algoritmo ALS usando i dati di training. L'algoritmo ALS di PySpark MLlib ha i seguenti parametri obbligatori: rank (il numero di fattori latenti nel modello) e iterations (il numero di iterazioni da eseguire). Dopo l'addestramento del modello ALS, puoi usare il modello per predire i rating sui dati di test. Per farlo, fornirai le colonne utente e item dal dataset di test e infine restituirai l'elenco di 2 righe dell'output di predictAll().

Ricorda: hai a disposizione SparkContext sc; training_data e test_data sono già presenti nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Addestra l'algoritmo ALS con i dati di training e i parametri configurati (rank = 10 e iterations = 10).
Elimina la colonna rating nei dati di test, che è la terza colonna.
Metti alla prova il modello predicendo il rating dai dati di test.
Restituisci un elenco di due righe con i rating predetti.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)

Modifica ed esegui il codice