Optimisation du spam par SMS
Le pipeline que vous avez construit précédemment pour le modèle de spam SMS utilisait les paramètres par défaut pour tous les éléments du pipeline. Il est cependant très peu probable que ces paramètres permettent d'obtenir un modèle particulièrement bon. Dans cet exercice, vous allez exécuter le pipeline pour une sélection de valeurs de paramètres. Nous allons procéder de manière systématique : les valeurs de chacun des hyperparamètres seront disposées sur une grille, puis le pipeline passera systématiquement par chaque point de la grille.
Dans cet exercice, vous établirez une grille de paramètres qui peut être utilisée avec la validation croisée pour choisir un bon ensemble de paramètres pour le classificateur de spam SMS.
Les éléments suivants sont déjà définis :
hasher- un objetHashingTFetlogistic- un objetLogisticRegression.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un objet de construction de grille de paramètres.
- Ajoutez des points de grille pour les paramètres
numFeaturesetbinaryà l'objetHashingTF, en donnant les valeurs 1024, 4096 et 16384, ainsi que True et False, respectivement. - Ajoutez des points de grille pour les paramètres
regParametelasticNetParamà l'objetLogisticRegression, en donnant des valeurs de 0,01, 0,1, 1,0 et 10,0, et 0,0, 0,5 et 1,0 respectivement. - Construisez la grille de paramètres.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create parameter grid
params = ____()
# Add grid for hashing trick parameters
params = params.____(____, ____) \
.____(____, ____)
# Add grid for logistic regression parameters
params = params.____(____, ____) \
.____(____, ____)
# Build parameter grid
params = ____.____()