Entrenamiento del modelo y previsiones
Tras dividir los datos en datos de entrenamiento y de prueba, en la segunda parte del ejercicio entrenarás el algoritmo ALS utilizando los datos de entrenamiento. El algoritmo ALS de PySpark MLlib tiene los siguientes parámetros obligatorios: rank
(el número de factores latentes del modelo) y iterations
(número de iteraciones que deben ejecutarse). Después de entrenar el modelo ALS, puedes utilizarlo para prever las valoraciones a partir de los datos de prueba. Para ello, proporcionarás las columnas de usuario y elemento del conjunto de datos de prueba y, finalmente, devolverás la lista de 2 filas de la salida predictAll()
.
Recuerda que tienes sc
, training_data
y test_data
de SparkContext ya disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Entrena el algoritmo ALS con los datos de entrenamiento y los parámetros configurados (
rank
= 10 yiterations
= 10). - Elimina la columna
rating
, que es la tercera columna, en los datos de prueba. - Prueba el modelo previendo la valoración a partir de los datos de prueba.
- Devuelve una lista de dos filas de las valoraciones previstas.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)