Trainiere deinen ersten Klassifikationsbaum

In dieser Übung arbeitest du mit dem Wisconsin Breast Cancer Dataset aus dem UCI machine learning repository. Du kannst anhand von zwei Merkmalen vorhersagen, ob ein Tumor bösartig oder gutartig ist: dem mittleren Radius des Tumors (radius_mean) und seiner mittleren Anzahl an konkaven Punkten (concave points_mean).

Der Datensatz ist bereits in deinem Arbeitsbereich geladen und in 80% Training und 20% Test aufgeteilt. Die Merkmalsmatrizen werden X_train und X_test zugewiesen, während die Arrays der Labels y_train und y_test zugewiesen werden, wobei Klasse 1 einem bösartigen Tumor und Klasse 0 einem gutartigen Tumor entspricht. Um reproduzierbare Ergebnisse zu erhalten, haben wir außerdem eine Variable namens SEED definiert, die auf 1 gesetzt wird.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit baumbasierten Modellen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere DecisionTreeClassifier von sklearn.tree.

  • Erstelle eine DecisionTreeClassifier dt mit einer maximalen Tiefe von 6.

  • Passe dt an die Trainingsmenge an.

  • Sage die Beschriftungen der Testmenge voraus und ordne das Ergebnis y_pred zu.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])