ComenzarEmpieza gratis

Vuelos retrasados con un Bosque Aleatorio

En este ejercicio reunirás los métodos de validación cruzada y de conjunto. Entrenarás un clasificador Random Forest para predecir vuelos retrasados, utilizando la validación cruzada para elegir los mejores valores para los parámetros del modelo.

Encontrarás buenos valores para los siguientes parámetros:

  • featureSubsetStrategy - el número de características a considerar para la división en cada nodo y
  • maxDepth - el número máximo de divisiones a lo largo de cualquier rama.

Por desgracia, construir este modelo lleva demasiado tiempo, así que no ejecutaremos el método .fit() en la tubería.

La clase RandomForestClassifier ya se ha importado a la sesión.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un objeto clasificador de bosque aleatorio.
  • Crea un objeto constructor de la cuadrícula de parámetros. Añade puntos de parrilla para los parámetros featureSubsetStrategy y maxDepth.
  • Crea un evaluador de clasificación binaria.
  • Crea un objeto validador cruzado, especificando el estimador, la cuadrícula de parámetros y el evaluador. Elige la validación cruzada de 5 pliegues.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Editar y ejecutar código