Vuelos retrasados con un Bosque Aleatorio
En este ejercicio reunirás los métodos de validación cruzada y de conjunto. Entrenarás un clasificador Random Forest para predecir vuelos retrasados, utilizando la validación cruzada para elegir los mejores valores para los parámetros del modelo.
Encontrarás buenos valores para los siguientes parámetros:
featureSubsetStrategy
- el número de características a considerar para la división en cada nodo ymaxDepth
- El número máximo de divisiones a lo largo de cualquier rama.
Por desgracia, construir este modelo lleva demasiado tiempo, así que no ejecutaremos el método .fit()
en la tubería.
La clase RandomForestClassifier
ya se ha importado a la sesión.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Crea un objeto clasificador de bosque aleatorio.
- Crea un objeto constructor de rejilla de parámetros. Añade puntos de cuadrícula para los parámetros
featureSubsetStrategy
ymaxDepth
. - Crea un evaluador de clasificación binaria.
- Crea un objeto validador cruzado, especificando el estimador, la rejilla de parámetros y el evaluador. Elige la validación cruzada de 5 veces.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)