ComenzarEmpieza gratis

Vuelos retrasados con un bosque aleatorio

En este ejercicio combinarás la validación cruzada y los métodos de conjunto. Entrenarás un clasificador Random Forest para predecir vuelos retrasados, utilizando la validación cruzada para elegir los mejores valores para los parámetros del modelo.

Encontrarás buenos valores para los siguientes parámetros:

  • featureSubsetStrategy — el número de características que hay que tener en cuenta para la división en cada nodo y
  • maxDepth — el número máximo de divisiones a lo largo de cualquier rama.

Desafortunadamente, construir este modelo lleva demasiado tiempo, por lo que no ejecutaremos el método .fit() en el proceso.

La clase RandomForestClassifier ya se ha importado a la sesión.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un objeto clasificador de bosque aleatorio.
  • Crea un objeto generador de cuadrículas de parámetros. Añade puntos de cuadrícula para los parámetros « featureSubsetStrategy » y « maxDepth ».
  • Crea un evaluador de clasificación binaria.
  • Crea un objeto validador cruzado, especificando el estimador, la cuadrícula de parámetros y el evaluador. Selecciona validación cruzada de 5 pliegues.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Editar y ejecutar código