Visualisierung der Bedeutung von Merkmalen

In dieser Übung sollst du herausfinden, welche Merkmale die beste Vorhersagekraft für den Random-Forests-Regressor rf haben, den du in einer früheren Übung trainiert hast.

Zu diesem Zweck zeichnest du ein horizontales Balkendiagramm der Merkmalsbedeutung, wie sie von rf bewertet wird. Glücklicherweise ist dies dank der Plot-Funktionen von pandas leicht möglich.

Wir haben ein pandas.Series Objekt mit dem Namen importances erstellt, das die Feature-Namen als index und ihre Bedeutung als Werte enthält. Außerdem ist matplotlib.pyplot als plt und pandas als pd verfügbar.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit baumbasierten Modellen in Python

Kurs anzeigen

Anleitung zur Übung

  • Rufe die Methode .sort_values() auf importances auf und weise das Ergebnis importances_sorted zu.

  • Rufe die Methode .plot() auf importances_sorted auf und setze die Argumente:

    • kind zu 'barh'

    • color zu 'lightgreen'

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create a pd.Series of features importances
importances = pd.Series(data=rf.feature_importances_,
                        index= X_train.columns)

# Sort importances
importances_sorted = ____

# Draw a horizontal barplot of importances_sorted
____.____(____='____', ____='____')
plt.title('Features Importances')
plt.show()