Prédire sur les données de test
Un modèle logistique ajusté df_fitted est disponible. Un dataframe df_testset est disponible et contient des données de test pour ce modèle. Une variable fields est disponible, contenant la liste ['prediction', 'label', 'endword', 'doc', 'probability'] ; elle sert à préciser quels champs de prédiction afficher.
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Appliquez le modèle aux données de
df_testset. - Affichez "incorrect" si la prédiction ne correspond pas au label.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Apply the model to the test data
predictions = df_fitted.____(____).select(fields)
# Print incorrect if prediction does not match label
for x in predictions.take(8):
print()
if x.label != int(x.____):
print("INCORRECT ==> ")
for y in fields:
print(y,":", x[y])