ComenzarEmpieza gratis

Spam por SMS optimizado

El canal que creaste anteriormente para el modelo de spam SMS utilizaba los parámetros predeterminados para todos los elementos del canal. Sin embargo, es muy poco probable que estos parámetros proporcionen un modelo especialmente bueno. En este ejercicio vas a ejecutar el proceso para una selección de valores de parámetros. Vamos a hacerlo de forma sistemática: los valores de cada uno de los hiperparámetros se dispondrán en una parilla y, a continuación, el pipeline recorrerá sistemáticamente cada punto de la parilla.

En este ejercicio configurarás una cuadrícula de parámetros que se puede utilizar con la validación cruzada para elegir un buen conjunto de parámetros para el clasificador de spam SMS.

Ya están definidos los siguientes:

  • hasher — un objeto HashingTF
  • logistic — un objeto LogisticRegression.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un objeto generador de cuadrículas de parámetros.
  • Añade puntos de parrilla para los parámetros « numFeatures » y « binary » al objeto « HashingTF », asignándoles los valores 1024, 4096 y 16384, y «True» y «False», respectivamente.
  • Añade puntos de cuadrícula para los parámetros « regParam » y « elasticNetParam » al objeto « LogisticRegression », asignándoles los valores 0.01, 0.1, 1.0 y 10.0, y 0.0, 0.5 y 1.0, respectivamente.
  • Construye la cuadrícula de parámetros.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Editar y ejecutar código