Entrenamiento del modelo y previsiones

Tras dividir los datos en datos de entrenamiento y de prueba, en la segunda parte del ejercicio entrenarás el algoritmo ALS utilizando los datos de entrenamiento. El algoritmo ALS de PySpark MLlib tiene los siguientes parámetros obligatorios: rank (el número de factores latentes del modelo) y iterations (número de iteraciones que deben ejecutarse). Después de entrenar el modelo ALS, puedes utilizarlo para prever las valoraciones a partir de los datos de prueba. Para ello, proporcionarás las columnas de usuario y elemento del conjunto de datos de prueba y, finalmente, devolverás la lista de 2 filas de la salida predictAll().

Recuerda que tienes sc, training_data y test_data de SparkContext ya disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Entrena el algoritmo ALS con los datos de entrenamiento y los parámetros configurados (rank = 10 y iterations = 10).
Elimina la columna rating, que es la tercera columna, en los datos de prueba.
Prueba el modelo previendo la valoración a partir de los datos de prueba.
Devuelve una lista de dos filas de las valoraciones previstas.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)

Editar y ejecutar código