CommencerCommencer gratuitement

Optimisation contre les spams par SMS

Le pipeline que vous avez précédemment créé pour le modèle de spam SMS a utilisé les paramètres par défaut pour tous les éléments du pipeline. Il est toutefois peu probable que ces paramètres permettent d'obtenir un modèle particulièrement performant. Dans cet exercice, vous allez exécuter le pipeline pour une sélection de valeurs de paramètres. Nous allons procéder de manière systématique : les valeurs de chacun des hyperparamètres seront disposées sur une grille, puis le pipeline parcourra systématiquement chaque point de la grille.

Dans cet exercice, vous allez configurer une grille de paramètres qui pourra être utilisée avec la validation croisée afin de sélectionner un ensemble de paramètres adaptés au classificateur de spam SMS.

Les éléments suivants sont déjà définis :

  • hasher — un objet d'HashingTF
  • logistic — un objet d'LogisticRegression.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez un objet générateur de grille de paramètres.
  • Ajoutez des points de grille pour les paramètres numFeatures et binary à l'objet HashingTF, en leur attribuant respectivement les valeurs 1024, 4096 et 16384, ainsi que True et False.
  • Ajoutez des points de grille pour les paramètres regParam et elasticNetParam à l'objet LogisticRegression, en attribuant respectivement les valeurs 0,01, 0,1, 1,0 et 10,0, et 0,0, 0,5 et 1,0.
  • Construisez la grille de paramètres.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Modifier et exécuter le code