Vuelos retrasados con árboles impulsados por gradientes
Anteriormente, has creado un clasificador para vuelos con probabilidad de retraso utilizando un árbol de decisión. En este ejercicio compararás un modelo de árbol de decisión con un modelo de árboles potenciados por gradientes.
Los datos de los vuelos se han dividido aleatoriamente en flights_train
y flights_test
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa las clases necesarias para crear los clasificadores Árbol de decisión y Árbol potenciado por gradiente.
- Crea clasificadores de árbol de decisión y árbol potenciado por gradiente. Entrena con los datos de entrenamiento.
- Crea un evaluador y calcula el AUC en los datos de prueba para ambos clasificadores. ¿Qué modelo funciona mejor?
- Para el clasificador Gradient-Boosted Tree, imprime el número de árboles y la importancia relativa de las características.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)