Trainiere deinen ersten Klassifikationsbaum

In dieser Übung arbeitest du mit dem Wisconsin Breast Cancer Dataset aus dem UCI Machine Learning Repository. Du sagst vorher, ob ein Tumor bösartig (malignant) oder gutartig (benign) ist, basierend auf zwei Merkmalen: dem mittleren Radius des Tumors (radius_mean) und der mittleren Anzahl konkaver Punkte (concave points_mean).

Der Datensatz ist bereits in deinem Workspace geladen und in 80 % Training und 20 % Test aufgeteilt. Die Merkmalmatrizen sind X_train und X_test zugewiesen, die Label-Arrays y_train und y_test, wobei Klasse 1 einem bösartigen Tumor und Klasse 0 einem gutartigen Tumor entspricht. Um reproduzierbare Ergebnisse zu erhalten, haben wir außerdem eine Variable SEED definiert, die auf 1 gesetzt ist.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit baumbasierten Modellen in Python</Kurs>

Übungsanweisungen

Importiere DecisionTreeClassifier aus sklearn.tree.
Instanziiere einen DecisionTreeClassifier dt mit einer maximalen Tiefe von 6.
Fitte dt auf den Trainingssatz.
Sage die Testlabels vorher und weise das Ergebnis y_pred zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit baumbasierten Modellen in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Klassifikations- und Regressionsbäume (CART) sind eine Klasse überwachter Lernmodelle für Klassifikations- und Regressionsaufgaben. In diesem Kapitel lernst du den CART-Algorithmus kennen.

Exercise 1: Entscheidungsbaum für die Klassifikation Exercise 2: Trainiere deinen ersten Klassifikationsbaum

Aktuelle Übung

Exercise 3: Den Klassifikationsbaum bewerten Exercise 4: Logistische Regression vs. Klassifikationsbaum Exercise 5: Lernen von Klassifikationsbäumen Exercise 6: Einen Klassifikationsbaum wachsen lassen Exercise 7: Entropie als Kriterium verwenden Exercise 8: Entropie vs. Gini-Index Exercise 9: Entscheidungsbaum für Regression Exercise 10: Trainiere deinen ersten Regressionsbaum Exercise 11: Den Regressionsbaum auswerten Exercise 12: Lineare Regression vs. Regressionsbaum

Der Bias-Variance-Trade-off gehört zu den grundlegenden Konzepten des überwachten maschinellen Lernens. In diesem Kapitel lernst du, Überanpassung (Overfitting) und Unteranpassung (Underfitting) zu diagnostizieren. Außerdem bekommst du eine Einführung in Ensembling, bei dem die Vorhersagen mehrerer Modelle aggregiert werden, um robustere Vorhersagen zu erhalten.

Exercise 1: Generalisierungsfehler Exercise 2: Komplexität, Bias und Varianz Exercise 3: Overfitting und Underfitting Exercise 4: Bias- und Varianzprobleme diagnostizieren Exercise 5: Modell instanziieren Exercise 6: Bewerte den 10-fach-CV-Fehler Exercise 7: Trainingsfehler auswerten Exercise 8: Hoher Bias oder hohe Varianz?Exercise 9: Ensemble Learning Exercise 10: Das Ensemble definieren Exercise 11: Einzelne Klassifikatoren bewerten Exercise 12: Bessere Leistung mit einem Voting Classifier

Bagging ist eine Ensemblemethode, bei der derselbe Algorithmus mehrfach auf unterschiedlichen, aus den Trainingsdaten gezogenen Stichproben trainiert wird. In diesem Kapitel verstehst du, wie sich mit Bagging ein Baum-Ensemble aufbauen lässt. Außerdem lernst du, wie der Random-Forests-Algorithmus durch zusätzliche Randomisierung bei jedem Split in den Bäumen des Ensembles zu noch mehr Vielfalt führt.

Exercise 1: Bagging Exercise 2: Definiere den Bagging-Classifier Exercise 3: Bagging-Leistung bewerten Exercise 4: Out-of-Bag-Auswertung Exercise 5: Bereite den Boden vor Exercise 6: OOB-Score vs. Testset-Score Exercise 7: Random Forests (RF)Exercise 8: Einen RF-Regressor trainieren Exercise 9: Den RF-Regressor auswerten Exercise 10: Visualisierung der Feature-Importanzen

Boosting bezeichnet eine Ensemblemethode, bei der mehrere Modelle sequenziell trainiert werden und jedes Modell aus den Fehlern seiner Vorgänger lernt. In diesem Kapitel lernst du die beiden Boosting-Methoden AdaBoost und Gradient Boosting kennen.

Exercise 1: Adaboost Exercise 2: Den AdaBoost-Klassifikator definieren Exercise 3: Den AdaBoost-Klassifikator trainieren Exercise 4: Bewerte den AdaBoost-Klassifikator Exercise 5: Gradient Boosting (GB)Exercise 6: GB-Regressor definieren Exercise 7: Trainiere den GB-Regressor Exercise 8: GB-Regressor auswerten Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regression mit SGB Exercise 11: Den SGB-Regressor trainieren Exercise 12: Den SGB-Regressor bewerten

Die Hyperparameter eines Machine-Learning-Modells werden nicht aus Daten gelernt. Sie werden festgelegt, bevor das Modell auf den Trainingssatz angepasst wird. In diesem Kapitel lernst du, die Hyperparameter eines baumbasierten Modells mithilfe von Grid-Search-Cross-Validation zu optimieren.

Exercise 1: Hyperparameter eines CART abstimmen Exercise 2: Hyperparameter von Bäumen Exercise 3: Hyperparameter-Grid des Baums festlegen Exercise 4: Suche nach dem optimalen Baum Exercise 5: Den optimalen Baum auswerten Exercise 6: Hyperparameter eines Random Forest abstimmen Exercise 7: Hyperparameter von Random Forests Exercise 8: Lege das Hyperparameter-Grid des RF fest Exercise 9: Suche nach dem optimalen Forest Exercise 10: Den optimalen Forest evaluieren Exercise 11: Glückwunsch!