Trainiere deinen ersten Klassifikationsbaum
In dieser Übung arbeitest du mit dem Wisconsin Breast Cancer Dataset aus dem UCI machine learning repository. Du kannst anhand von zwei Merkmalen vorhersagen, ob ein Tumor bösartig oder gutartig ist: dem mittleren Radius des Tumors (radius_mean
) und seiner mittleren Anzahl an konkaven Punkten (concave points_mean
).
Der Datensatz ist bereits in deinem Arbeitsbereich geladen und in 80% Training und 20% Test aufgeteilt. Die Merkmalsmatrizen werden X_train
und X_test
zugewiesen, während die Arrays der Labels y_train
und y_test
zugewiesen werden, wobei Klasse 1 einem bösartigen Tumor und Klasse 0 einem gutartigen Tumor entspricht. Um reproduzierbare Ergebnisse zu erhalten, haben wir außerdem eine Variable namens SEED
definiert, die auf 1 gesetzt wird.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit baumbasierten Modellen in Python
Anleitung zur Übung
Importiere
DecisionTreeClassifier
vonsklearn.tree
.Erstelle eine
DecisionTreeClassifier
dt
mit einer maximalen Tiefe von 6.Passe
dt
an die Trainingsmenge an.Sage die Beschriftungen der Testmenge voraus und ordne das Ergebnis
y_pred
zu.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____
# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)
# Fit dt to the training set
____.____(____, ____)
# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])