Entraînement et prédictions du modèle

Après avoir divisé les données en données d’entraînement et de test, dans la deuxième partie de l'exercice, vous formerez l'algorithme ALS à l'aide des données d’entraînement. L'algorithme ALS de PySpark MLlib a les paramètres obligatoires suivants : rank (le nombre de facteurs latents dans le modèle) et iterations (le nombre d'itérations à exécuter). Après avoir entraîné le modèle ALS, vous pouvez l'utiliser pour prédire les évaluations à partir des données de test. Pour ce faire, vous fournirez les colonnes user et item de l'ensemble de données de test et renverrez finalement la liste de 2 lignes du résultat predictAll().

Rappelez-vous que le SparkContext sc, training_data et test_data sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Principes fondamentaux des mégadonnées avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Entraînez l'algorithme ALS avec les données d'entraînement et les paramètres configurés (rank = 10 et iterations = 10).
Supprimez la colonne rating dans les données de test, (c’est la troisième colonne).
Testez le modèle en prédisant l’évaluation (rating) à partir des données de test.
Renvoyez une liste de deux lignes des évaluations prédites.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)

# Drop the ratings column 
testdata_no_rating = test_data.___(lambda p: (p[0], ____))

# Predict the model  
predictions = model.____(testdata_no_rating)

# Return the first 2 rows of the RDD
predictions.____(2)

Modifier et exécuter le code