ComenzarEmpieza gratis

SMS spam optimizado

La canalización que construiste anteriormente para el modelo de spam SMS utilizaba los parámetros por defecto para todos los elementos de la canalización. Sin embargo, es muy poco probable que estos parámetros den un modelo especialmente bueno. En este ejercicio vas a ejecutar la tubería para una selección de valores de parámetros. Vamos a hacerlo de forma sistemática: los valores de cada uno de los parámetros se dispondrán en una cuadrícula y luego las tuberías recorrerán sistemáticamente cada punto de la cuadrícula.

En este ejercicio configurarás una parrilla de parámetros que se puede utilizar con validación cruzada para elegir un buen conjunto de parámetros para el clasificador de spam SMS.

Los siguientes ya están definidos:

  • hasher - un objeto HashingTF y
  • logistic - un objeto LogisticRegression.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un objeto constructor de rejilla de parámetros.
  • Añade puntos de cuadrícula para los parámetros numFeatures y binary al objeto HashingTF, dándole los valores 1024, 4096 y 16384, y Verdadero y Falso, respectivamente.
  • Añade puntos de cuadrícula para los parámetros regParam y elasticNetParam al objeto LogisticRegression, dando valores de 0,01, 0,1, 1,0 y 10,0, y 0,0, 0,5 y 1,0 respectivamente.
  • Construye la parrilla de parámetros.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Editar y ejecutar código