Entrena tu primer árbol de clasificación

En este ejercicio trabajarás con el Conjunto de datos de cáncer de mama de Wisconsin del repositorio de machine learning UCI. Predecirás si un tumor es maligno o benigno basándote en dos características: el radio medio del tumor (radius_mean) y su número medio de puntos cóncavos (concave points_mean).

El conjunto de datos ya está cargado en tu espacio de trabajo y está dividido en un 80 % de entrenamiento y un 20 % de prueba. Las matrices de características se asignan a X_train y X_test, mientras que las matrices de etiquetas se asignan a y_train y y_test, donde la clase 1 corresponde a un tumor maligno y la clase 0 a un tumor benigno. Para obtener resultados reproducibles, también definimos una variable llamada SEED que se fija en 1.

Este ejercicio forma parte del curso

Machine learning con modelos basados en árboles en Python

Ver curso

Instrucciones de ejercicio

  • Importa DecisionTreeClassifier desde sklearn.tree.

  • Instancia un DecisionTreeClassifier dt de profundidad máxima igual a 6.

  • Ajusta dt al conjunto de entrenamiento.

  • Predice las etiquetas del conjunto de pruebas y asigna el resultado a y_pred.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])