Train je eerste classificatieboom
In deze oefening werk je met de Wisconsin Breast Cancer Dataset uit de UCI machine learning-repository. Je voorspelt of een tumor kwaadaardig of goedaardig is op basis van twee features: de gemiddelde straal van de tumor (radius_mean) en het gemiddelde aantal concave punten (concave points_mean).
De gegevensset is al in je werkruimte geladen en is opgesplitst in 80% train en 20% test. De feature-matrices zijn toegewezen aan X_train en X_test, terwijl de label-arrays zijn toegewezen aan y_train en y_test, waarbij klasse 1 overeenkomt met een kwaadaardige tumor en klasse 0 met een goedaardige tumor. Om reproduceerbare resultaten te krijgen, is ook een variabele SEED gedefinieerd met waarde 1.
Deze oefening maakt deel uit van de cursus
Machine Learning met boomgebaseerde modellen in Python
Oefeninstructies
Importeer
DecisionTreeClassifieruitsklearn.tree.Instantiseer een
DecisionTreeClassifierdtmet een maximale diepte van 6.Fit
dtop de trainingsset.Voorspel de testlabels en wijs het resultaat toe aan
y_pred.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____
# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)
# Fit dt to the training set
____.____(____, ____)
# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])