Optimisation du spam par SMS

Le pipeline que vous avez construit précédemment pour le modèle de spam SMS utilisait les paramètres par défaut pour tous les éléments du pipeline. Il est cependant très peu probable que ces paramètres permettent d'obtenir un modèle particulièrement bon. Dans cet exercice, vous allez exécuter le pipeline pour une sélection de valeurs de paramètres. Nous allons procéder de manière systématique : les valeurs de chacun des hyperparamètres seront disposées sur une grille, puis le pipeline passera systématiquement par chaque point de la grille.

Dans cet exercice, vous établirez une grille de paramètres qui peut être utilisée avec la validation croisée pour choisir un bon ensemble de paramètres pour le classificateur de spam SMS.

Les éléments suivants sont déjà définis :

hasher - un objet HashingTF et
logistic - un objet LogisticRegression.

Cet exercice fait partie du cours

<cours>Apprentissage automatique avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Créez un objet de construction de grille de paramètres.
Ajoutez des points de grille pour les paramètres numFeatures et binary à l'objet HashingTF, en donnant les valeurs 1024, 4096 et 16384, ainsi que True et False, respectivement.
Ajoutez des points de grille pour les paramètres regParam et elasticNetParam à l'objet LogisticRegression, en donnant des valeurs de 0,01, 0,1, 1,0 et 10,0, et 0,0, 0,5 et 1,0 respectivement.
Construisez la grille de paramètres.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()

Modifier et exécuter le code