ComenzarEmpieza gratis

Entrenamiento del modelo y previsiones

Tras dividir los datos en datos de entrenamiento y de prueba, en la segunda parte del ejercicio entrenarás el algoritmo ALS utilizando los datos de entrenamiento. El algoritmo ALS de PySpark MLlib tiene los siguientes parámetros obligatorios: rank (el número de factores latentes del modelo) y iterations (número de iteraciones que deben ejecutarse). Después de entrenar el modelo ALS, puedes utilizarlo para prever las valoraciones a partir de los datos de prueba. Para ello, proporcionarás las columnas de usuario y elemento del conjunto de datos de prueba y, finalmente, devolverás la lista de 2 filas de la salida predictAll().

Recuerda que tienes sc, training_data y test_data de SparkContext ya disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

  • Entrena el algoritmo ALS con los datos de entrenamiento y los parámetros configurados (rank = 10 y iterations = 10).
  • Elimina la columna rating, que es la tercera columna, en los datos de prueba.
  • Prueba el modelo previendo la valoración a partir de los datos de prueba.
  • Devuelve una lista de dos filas de las valoraciones previstas.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)
Editar y ejecutar código