SMS spam optimizado
La canalización que construiste anteriormente para el modelo de spam SMS utilizaba los parámetros por defecto para todos los elementos de la canalización. Sin embargo, es muy poco probable que estos parámetros den un modelo especialmente bueno. En este ejercicio vas a ejecutar la tubería para una selección de valores de parámetros. Vamos a hacerlo de forma sistemática: los valores de cada uno de los hiperparámetros se dispondrán en una parrilla y, a continuación, la tubería recorrerá sistemáticamente cada punto de la parrilla.
En este ejercicio configurarás una cuadrícula de parámetros que se puede utilizar con validación cruzada para elegir un buen conjunto de parámetros para el clasificador de spam SMS.
Los siguientes ya están definidos:
hasher- un objetoHashingTFylogistic- un objetoLogisticRegression.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Crea un objeto constructor de la cuadrícula de parámetros.
- Añade puntos de parrilla para los parámetros
numFeaturesybinaryal objetoHashingTF, dándole los valores 1024, 4096 y 16384, y Verdadero y Falso, respectivamente. - Añade puntos de parrilla para los parámetros
regParamyelasticNetParamal objetoLogisticRegression, dando valores de 0,01, 0,1, 1,0 y 10,0, y 0,0, 0,5 y 1,0 respectivamente. - Construye la cuadrícula de parámetros.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create parameter grid
params = ____()
# Add grid for hashing trick parameters
params = params.____(____, ____) \
.____(____, ____)
# Add grid for logistic regression parameters
params = params.____(____, ____) \
.____(____, ____)
# Build parameter grid
params = ____.____()