Optimisation contre les spams par SMS
Le pipeline que vous avez précédemment créé pour le modèle de spam SMS a utilisé les paramètres par défaut pour tous les éléments du pipeline. Il est toutefois peu probable que ces paramètres permettent d'obtenir un modèle particulièrement performant. Dans cet exercice, vous allez exécuter le pipeline pour une sélection de valeurs de paramètres. Nous allons procéder de manière systématique : les valeurs de chacun des hyperparamètres seront disposées sur une grille, puis le pipeline parcourra systématiquement chaque point de la grille.
Dans cet exercice, vous allez configurer une grille de paramètres qui pourra être utilisée avec la validation croisée afin de sélectionner un ensemble de paramètres adaptés au classificateur de spam SMS.
Les éléments suivants sont déjà définis :
hasher
— un objet d'HashingTF
logistic
— un objet d'LogisticRegression
.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un objet générateur de grille de paramètres.
- Ajoutez des points de grille pour les paramètres
numFeatures
etbinary
à l'objetHashingTF
, en leur attribuant respectivement les valeurs 1024, 4096 et 16384, ainsi que True et False. - Ajoutez des points de grille pour les paramètres
regParam
etelasticNetParam
à l'objetLogisticRegression
, en attribuant respectivement les valeurs 0,01, 0,1, 1,0 et 10,0, et 0,0, 0,5 et 1,0. - Construisez la grille de paramètres.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create parameter grid
params = ____()
# Add grid for hashing trick parameters
params = params.____(____, ____) \
.____(____, ____)
# Add grid for logistic regression parameters
params = params.____(____, ____) \
.____(____, ____)
# Build parameter grid
params = ____.____()