Entraînement et prédictions du modèle
Après avoir divisé les données en données d’entraînement et de test, dans la deuxième partie de l'exercice, vous formerez l'algorithme ALS à l'aide des données d’entraînement. L'algorithme ALS de PySpark MLlib a les paramètres obligatoires suivants : rank
(le nombre de facteurs latents dans le modèle) et iterations
(le nombre d'itérations à exécuter). Après avoir entraîné le modèle ALS, vous pouvez l'utiliser pour prédire les évaluations à partir des données de test. Pour ce faire, vous fournirez les colonnes user et item de l'ensemble de données de test et renverrez finalement la liste de 2 lignes du résultat predictAll()
.
Rappelez-vous que le SparkContext sc
, training_data
et test_data
sont déjà disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Entraînez l'algorithme ALS avec les données d'entraînement et les paramètres configurés (
rank
= 10 etiterations
= 10). - Supprimez la colonne
rating
dans les données de test, (c’est la troisième colonne). - Testez le modèle en prédisant l’évaluation (rating) à partir des données de test.
- Renvoyez une liste de deux lignes des évaluations prédites.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the ALS model on the training data
model = ALS.____(____, rank=10, iterations=10)
# Drop the ratings column
testdata_no_rating = test_data.___(lambda p: (p[0], ____))
# Predict the model
predictions = model.____(testdata_no_rating)
# Return the first 2 rows of the RDD
predictions.____(2)