Visualisierung der Feature-Importanzen

In dieser Übung findest du heraus, welche Features laut dem Random-Forest-Regressor rf, den du in einer vorherigen Übung trainiert hast, am aussagekräftigsten waren.

Dazu zeichnest du ein horizontales Balkendiagramm der von rf ermittelten Feature-Importanz. Zum Glück geht das dank der Plot-Funktionen von pandas ganz einfach.

Wir haben ein pandas.Series-Objekt namens importances erstellt, das die Feature-Namen als index und deren Importanzen als Werte enthält. Zusätzlich ist matplotlib.pyplot als plt und pandas als pd verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit baumbasierten Modellen in Python</Kurs>

Übungsanweisungen

Rufe die Methode .sort_values() auf importances auf und weise das Ergebnis importances_sorted zu.
Rufe die Methode .plot() auf importances_sorted auf und setze die Argumente:
- kind auf 'barh'
- color auf 'lightgreen'

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a pd.Series of features importances
importances = pd.Series(data=rf.feature_importances_,
                        index= X_train.columns)

# Sort importances
importances_sorted = ____

# Draw a horizontal barplot of importances_sorted
____.____(____='____', ____='____')
plt.title('Features Importances')
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit baumbasierten Modellen in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Klassifikations- und Regressionsbäume (CART) sind eine Klasse überwachter Lernmodelle für Klassifikations- und Regressionsaufgaben. In diesem Kapitel lernst du den CART-Algorithmus kennen.

Exercise 1: Entscheidungsbaum für die Klassifikation Exercise 2: Trainiere deinen ersten Klassifikationsbaum Exercise 3: Den Klassifikationsbaum bewerten Exercise 4: Logistische Regression vs. Klassifikationsbaum Exercise 5: Lernen von Klassifikationsbäumen Exercise 6: Einen Klassifikationsbaum wachsen lassen Exercise 7: Entropie als Kriterium verwenden Exercise 8: Entropie vs. Gini-Index Exercise 9: Entscheidungsbaum für Regression Exercise 10: Trainiere deinen ersten Regressionsbaum Exercise 11: Den Regressionsbaum auswerten Exercise 12: Lineare Regression vs. Regressionsbaum

Der Bias-Variance-Trade-off gehört zu den grundlegenden Konzepten des überwachten maschinellen Lernens. In diesem Kapitel lernst du, Überanpassung (Overfitting) und Unteranpassung (Underfitting) zu diagnostizieren. Außerdem bekommst du eine Einführung in Ensembling, bei dem die Vorhersagen mehrerer Modelle aggregiert werden, um robustere Vorhersagen zu erhalten.

Exercise 1: Generalisierungsfehler Exercise 2: Komplexität, Bias und Varianz Exercise 3: Overfitting und Underfitting Exercise 4: Bias- und Varianzprobleme diagnostizieren Exercise 5: Modell instanziieren Exercise 6: Bewerte den 10-fach-CV-Fehler Exercise 7: Trainingsfehler auswerten Exercise 8: Hoher Bias oder hohe Varianz?Exercise 9: Ensemble Learning Exercise 10: Das Ensemble definieren Exercise 11: Einzelne Klassifikatoren bewerten Exercise 12: Bessere Leistung mit einem Voting Classifier

Bagging ist eine Ensemblemethode, bei der derselbe Algorithmus mehrfach auf unterschiedlichen, aus den Trainingsdaten gezogenen Stichproben trainiert wird. In diesem Kapitel verstehst du, wie sich mit Bagging ein Baum-Ensemble aufbauen lässt. Außerdem lernst du, wie der Random-Forests-Algorithmus durch zusätzliche Randomisierung bei jedem Split in den Bäumen des Ensembles zu noch mehr Vielfalt führt.

Exercise 1: Bagging Exercise 2: Definiere den Bagging-Classifier Exercise 3: Bagging-Leistung bewerten Exercise 4: Out-of-Bag-Auswertung Exercise 5: Bereite den Boden vor Exercise 6: OOB-Score vs. Testset-Score Exercise 7: Random Forests (RF)Exercise 8: Einen RF-Regressor trainieren Exercise 9: Den RF-Regressor auswerten Exercise 10: Visualisierung der Feature-Importanzen

Aktuelle Übung

Boosting bezeichnet eine Ensemblemethode, bei der mehrere Modelle sequenziell trainiert werden und jedes Modell aus den Fehlern seiner Vorgänger lernt. In diesem Kapitel lernst du die beiden Boosting-Methoden AdaBoost und Gradient Boosting kennen.

Exercise 1: Adaboost Exercise 2: Den AdaBoost-Klassifikator definieren Exercise 3: Den AdaBoost-Klassifikator trainieren Exercise 4: Bewerte den AdaBoost-Klassifikator Exercise 5: Gradient Boosting (GB)Exercise 6: GB-Regressor definieren Exercise 7: Trainiere den GB-Regressor Exercise 8: GB-Regressor auswerten Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regression mit SGB Exercise 11: Den SGB-Regressor trainieren Exercise 12: Den SGB-Regressor bewerten

Die Hyperparameter eines Machine-Learning-Modells werden nicht aus Daten gelernt. Sie werden festgelegt, bevor das Modell auf den Trainingssatz angepasst wird. In diesem Kapitel lernst du, die Hyperparameter eines baumbasierten Modells mithilfe von Grid-Search-Cross-Validation zu optimieren.

Exercise 1: Hyperparameter eines CART abstimmen Exercise 2: Hyperparameter von Bäumen Exercise 3: Hyperparameter-Grid des Baums festlegen Exercise 4: Suche nach dem optimalen Baum Exercise 5: Den optimalen Baum auswerten Exercise 6: Hyperparameter eines Random Forest abstimmen Exercise 7: Hyperparameter von Random Forests Exercise 8: Lege das Hyperparameter-Grid des RF fest Exercise 9: Suche nach dem optimalen Forest Exercise 10: Den optimalen Forest evaluieren Exercise 11: Glückwunsch!