Vuelos retrasados con un Bosque Aleatorio
En este ejercicio reunirás los métodos de validación cruzada y de conjunto. Entrenarás un clasificador Random Forest para predecir vuelos retrasados, utilizando la validación cruzada para elegir los mejores valores para los parámetros del modelo.
Encontrarás buenos valores para los siguientes parámetros:
featureSubsetStrategy- el número de características a considerar para la división en cada nodo ymaxDepth- el número máximo de divisiones a lo largo de cualquier rama.
Por desgracia, construir este modelo lleva demasiado tiempo, así que no ejecutaremos el método .fit() en la tubería.
La clase RandomForestClassifier ya se ha importado a la sesión.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Crea un objeto clasificador de bosque aleatorio.
- Crea un objeto constructor de la cuadrícula de parámetros. Añade puntos de parrilla para los parámetros
featureSubsetStrategyymaxDepth. - Crea un evaluador de clasificación binaria.
- Crea un objeto validador cruzado, especificando el estimador, la cuadrícula de parámetros y el evaluador. Elige la validación cruzada de 5 pliegues.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)