ComeçarComece gratuitamente

Treinamento e previsões de modelos

Depois de dividir os dados em dados de treinamento e de teste, na segunda parte do exercício, você treinará o algoritmo ALS usando os dados de treinamento. O algoritmo ALS do PySpark MLlib tem os seguintes parâmetros obrigatórios: rank (o número de fatores latentes no modelo) e iterations (número de iterações a serem executadas). Depois de treinar o modelo ALS, você pode usar o modelo para prever as classificações dos dados de teste. Para isso, você fornecerá as colunas de usuário e item do conjunto de dados de teste e, por fim, retornará a lista de 2 linhas da saída predictAll().

Lembre-se de que você tem SparkContext sc, training_data e test_data já disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Treine o algoritmo ALS com dados de treinamento e parâmetros configurados (rank = 10 e iterations = 10).
  • Elimine a coluna rating nos dados de teste, que é a terceira coluna.
  • Teste o modelo prevendo a classificação com base nos dados de teste.
  • Retorne uma lista de duas linhas das classificações previstas.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)
Editar e executar código