SMS spam optimizado
La canalización que construiste anteriormente para el modelo de spam SMS utilizaba los parámetros por defecto para todos los elementos de la canalización. Sin embargo, es muy poco probable que estos parámetros den un modelo especialmente bueno. En este ejercicio vas a ejecutar la tubería para una selección de valores de parámetros. Vamos a hacerlo de forma sistemática: los valores de cada uno de los parámetros se dispondrán en una cuadrícula y luego las tuberías recorrerán sistemáticamente cada punto de la cuadrícula.
En este ejercicio configurarás una parrilla de parámetros que se puede utilizar con validación cruzada para elegir un buen conjunto de parámetros para el clasificador de spam SMS.
Los siguientes ya están definidos:
hasher
- un objetoHashingTF
ylogistic
- un objetoLogisticRegression
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Crea un objeto constructor de rejilla de parámetros.
- Añade puntos de cuadrícula para los parámetros
numFeatures
ybinary
al objetoHashingTF
, dándole los valores 1024, 4096 y 16384, y Verdadero y Falso, respectivamente. - Añade puntos de cuadrícula para los parámetros
regParam
yelasticNetParam
al objetoLogisticRegression
, dando valores de 0,01, 0,1, 1,0 y 10,0, y 0,0, 0,5 y 1,0 respectivamente. - Construye la parrilla de parámetros.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create parameter grid
params = ____()
# Add grid for hashing trick parameters
params = params.____(____, ____) \
.____(____, ____)
# Add grid for logistic regression parameters
params = params.____(____, ____) \
.____(____, ____)
# Build parameter grid
params = ____.____()