ComenzarEmpieza gratis

Vuelos retrasados con árboles de gradiente reforzado

Previamente has construido un clasificador de vuelos con probabilidad de retraso utilizando un Árbol de Decisión. En este ejercicio compararás un modelo de Árbol de Decisión con un modelo de Árboles con Refuerzo de Gradiente.

Los datos de los vuelos se han dividido aleatoriamente en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Importa las clases necesarias para crear los clasificadores Árbol de decisión y Árbol de gradiente aumentado.
  • Crea clasificadores de Árbol de Decisión y Árbol con Refuerzo Gradiente. Entrénate con los datos de entrenamiento.
  • Crea un evaluador y calcula el AUC en los datos de prueba para ambos clasificadores. ¿Qué modelo funciona mejor?
  • Para el clasificador Gradient-Boosted Tree, imprime el número de árboles y la importancia relativa de las características.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)

# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))

# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)
Editar y ejecutar código