ComenzarEmpieza gratis

SMS spam optimizado

La canalización que construiste anteriormente para el modelo de spam SMS utilizaba los parámetros por defecto para todos los elementos de la canalización. Sin embargo, es muy poco probable que estos parámetros den un modelo especialmente bueno. En este ejercicio vas a ejecutar la tubería para una selección de valores de parámetros. Vamos a hacerlo de forma sistemática: los valores de cada uno de los hiperparámetros se dispondrán en una parrilla y, a continuación, la tubería recorrerá sistemáticamente cada punto de la parrilla.

En este ejercicio configurarás una cuadrícula de parámetros que se puede utilizar con validación cruzada para elegir un buen conjunto de parámetros para el clasificador de spam SMS.

Los siguientes ya están definidos:

  • hasher - un objeto HashingTF y
  • logistic - un objeto LogisticRegression.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un objeto constructor de la cuadrícula de parámetros.
  • Añade puntos de parrilla para los parámetros numFeatures y binary al objeto HashingTF, dándole los valores 1024, 4096 y 16384, y Verdadero y Falso, respectivamente.
  • Añade puntos de parrilla para los parámetros regParam y elasticNetParam al objeto LogisticRegression, dando valores de 0,01, 0,1, 1,0 y 10,0, y 0,0, 0,5 y 1,0 respectivamente.
  • Construye la cuadrícula de parámetros.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Editar y ejecutar código