ComenzarEmpieza gratis

Vuelos retrasados con un Bosque Aleatorio

En este ejercicio reunirás los métodos de validación cruzada y de conjunto. Entrenarás un clasificador Random Forest para predecir vuelos retrasados, utilizando la validación cruzada para elegir los mejores valores para los parámetros del modelo.

Encontrarás buenos valores para los siguientes parámetros:

  • featureSubsetStrategy - el número de características a considerar para la división en cada nodo y
  • maxDepth - El número máximo de divisiones a lo largo de cualquier rama.

Por desgracia, construir este modelo lleva demasiado tiempo, así que no ejecutaremos el método .fit() en la tubería.

La clase RandomForestClassifier ya se ha importado a la sesión.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un objeto clasificador de bosque aleatorio.
  • Crea un objeto constructor de rejilla de parámetros. Añade puntos de cuadrícula para los parámetros featureSubsetStrategy y maxDepth.
  • Crea un evaluador de clasificación binaria.
  • Crea un objeto validador cruzado, especificando el estimador, la rejilla de parámetros y el evaluador. Elige la validación cruzada de 5 veces.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Editar y ejecutar código