Entrena tu primer árbol de clasificación

En este ejercicio trabajarás con el Conjunto de datos de cáncer de mama de Wisconsin del repositorio de machine learning UCI. Predecirás si un tumor es maligno o benigno basándote en dos características: el radio medio del tumor (radius_mean) y su número medio de puntos cóncavos (concave points_mean).

El conjunto de datos ya está cargado en tu espacio de trabajo y está dividido en un 80 % de entrenamiento y un 20 % de prueba. Las matrices de características se asignan a X_train y X_test, mientras que las matrices de etiquetas se asignan a y_train y y_test, donde la clase 1 corresponde a un tumor maligno y la clase 0 a un tumor benigno. Para obtener resultados reproducibles, también definimos una variable llamada SEED que se fija en 1.

Este ejercicio forma parte del curso

Machine learning con modelos basados en árboles en Python

Instrucciones del ejercicio

Importa DecisionTreeClassifier desde sklearn.tree.
Instancia un DecisionTreeClassifier dt de profundidad máxima igual a 6.
Ajusta dt al conjunto de entrenamiento.
Predice las etiquetas del conjunto de pruebas y asigna el resultado a y_pred.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])

Editar y ejecutar código

Este ejercicio forma parte del curso

Machine learning con modelos basados en árboles en Python

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

Los Árboles de clasificación y regresión (CART) son un conjunto de modelos de aprendizaje supervisado que se utilizan para problemas de clasificación y regresión. En este capítulo, conocerás el algoritmo CART.

Exercise 1: Árbol de decisión para la clasificación Exercise 2: Entrena tu primer árbol de clasificación

Ejercicio actual

Exercise 3: Evaluar el árbol de clasificación Exercise 4: Regresión logística frente a árbol de clasificación Exercise 5: Aprendizaje del árbol de clasificación Exercise 6: Hacer crecer un árbol de clasificación Exercise 7: Utilizar la entropía como criterio Exercise 8: Entropía vs índice de Gini Exercise 9: Árbol de decisión para la regresión Exercise 10: Entrena tu primer árbol de regresión Exercise 11: Evaluar el árbol de regresión Exercise 12: Regresión lineal vs árbol de regresión

El equilibrio entre sesgo y varianza es uno de los conceptos fundamentales del machine learning supervisado. En este capítulo, comprenderás cómo diagnosticar los problemas de sobreajuste e infraajuste. También conocerás el concepto de ensamblaje, que consiste en agregar las predicciones de varios modelos para obtener predicciones más sólidas.

Exercise 1: Error de generalización Exercise 2: Complejidad, sesgo y varianza Exercise 3: Sobreajuste e infraajuste Exercise 4: Diagnosticar problemas de sesgo y varianza Exercise 5: Instanciar el modelo Exercise 6: Evalúa el error de CV a 10 Exercise 7: Evalúa el error de entrenamiento Exercise 8: ¿Alto sesgo o alta varianza?Exercise 9: Aprendizaje conjunto Exercise 10: Definir el conjunto Exercise 11: Evaluar clasificadores individuales Exercise 12: Mejor rendimiento con un clasificador de votación

El bagging es un método de ensamblaje que consiste en entrenar el mismo algoritmo muchas veces utilizando diferentes subconjuntos muestreados de los datos de entrenamiento. En este capítulo, comprenderás cómo puede utilizarse el bagging para crear un conjunto de árboles. También aprenderás cómo el algoritmo de los bosques aleatorios puede conducir a una mayor diversidad del conjunto mediante la aleatorización a nivel de cada división en los árboles que forman el conjunto.

Exercise 1: Bagging Exercise 2: Definir el clasificador bagging Exercise 3: Evaluar el rendimiento del bagging Exercise 4: Evaluación Out of Bag (OOB)Exercise 5: Prepara el terreno Exercise 6: Puntuación OOB frente a la puntuación del conjunto de pruebas Exercise 7: Bosques aleatorios (RF)Exercise 8: Entrena un regresor RF Exercise 9: Evalúa el regresor RF Exercise 10: Visualizar la importancia de las características

El refuerzo se refiere a un método conjunto en el que se entrenan varios modelos secuencialmente y cada modelo aprende de los errores de sus predecesores. En este capítulo, conocerás los dos métodos de refuerzo: AdaBoost y Gradient Boosting (potenciación del gradiente).

Exercise 1: Adaboost Exercise 2: Definir el clasificador AdaBoost Exercise 3: Entrenar el clasificador AdaBoost Exercise 4: Evaluar el clasificador AdaBoost Exercise 5: Potenciación del gradiente (GB)Exercise 6: Define el regresor GB Exercise 7: Entrena el regresor GB Exercise 8: Evalúa el regresor GB Exercise 9: Potenciación del gradiente estocástico (SGB)Exercise 10: Regresión con SGB Exercise 11: Entrena el regresor SGB Exercise 12: Evalúa el regresor SGB

Los hiperparámetros de un modelo de machine learning son parámetros que no se aprenden a partir de los datos. Deben fijarse antes de ajustar el modelo al conjunto de entrenamiento. En este capítulo, aprenderás a ajustar los hiperparámetros de un modelo basado en árboles utilizando la validación cruzada de búsqueda en cuadrícula.

Exercise 1: Ajuste de los hiperparámetros de CART Exercise 2: Hiperparámetros del árbol Exercise 3: Establece la rejilla de hiperparámetros del árbol Exercise 4: Búsqueda del árbol óptimo Exercise 5: Evalúa el árbol óptimo Exercise 6: Ajuste de los hiperparámetros de RF Exercise 7: Hiperparámetros de los bosques aleatorios Exercise 8: Establece la rejilla de hiperparámetros de RF Exercise 9: Búsqueda del bosque óptimo Exercise 10: Evaluar el bosque óptimo Exercise 11: ¡Enhorabuena!