ComenzarEmpieza gratis

Visualizing feature importances: What features are most important in my dataset

Otra forma de visualizar tus modelos de XGBoost es examinar la importancia de cada columna de características del conjunto de datos original dentro del modelo.

Una manera sencilla de hacerlo consiste en contar cuántas veces se divide cada variable a lo largo de todas las iteraciones de boosting (árboles) del modelo y, después, representar el resultado como un gráfico de barras, ordenando las variables según el número de apariciones. XGBoost incluye la función plot_importance() que te permite hacer exactamente esto, y en este ejercicio tendrás la oportunidad de usarla.

Este ejercicio forma parte del curso

Extreme Gradient Boosting con XGBoost

Ver curso

Instrucciones del ejercicio

  • Crea tu DMatrix a partir de X y y como antes.
  • Crea un diccionario de parámetros con el "objective" apropiado ("reg:squarederror") y un "max_depth" de 4.
  • Entrena el modelo con 10 rondas de boosting, exactamente como en el ejercicio anterior.
  • Usa xgb.plot_importance() y pasa el modelo entrenado para generar el gráfico de importancias de variables.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create the DMatrix: housing_dmatrix
housing_dmatrix = ____

# Create the parameter dictionary: params
params = ____

# Train the model: xg_reg
xg_reg = ____

# Plot the feature importances
____
plt.show()
Editar y ejecutar código