Treinamento e previsões de modelos
Depois de dividir os dados em dados de treinamento e de teste, na segunda parte do exercício, você treinará o algoritmo ALS usando os dados de treinamento. O algoritmo ALS do PySpark MLlib tem os seguintes parâmetros obrigatórios: rank
(o número de fatores latentes no modelo) e iterations
(número de iterações a serem executadas). Depois de treinar o modelo ALS, você pode usar o modelo para prever as classificações dos dados de teste. Para isso, você fornecerá as colunas de usuário e item do conjunto de dados de teste e, por fim, retornará a lista de 2 linhas da saída predictAll()
.
Lembre-se de que você tem SparkContext sc
, training_data
e test_data
já disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Treine o algoritmo ALS com dados de treinamento e parâmetros configurados (
rank
= 10 eiterations
= 10). - Elimine a coluna
rating
nos dados de teste, que é a terceira coluna. - Teste o modelo prevendo a classificação com base nos dados de teste.
- Retorne uma lista de duas linhas das classificações previstas.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)