Aan de slagGa gratis aan de slag

Feature-importances visualiseren

In deze oefening bepaal je welke features volgens de random forests-regressor rf die je in een vorige oefening trainde, het meest voorspellend waren.

Hiervoor maak je een horizontale staafdiagram van de feature-importance zoals beoordeeld door rf. Gelukkig kan dat eenvoudig dankzij de plotmogelijkheden van pandas.

We hebben een pandas.Series-object gemaakt, importances, met de featurenamen als index en hun importances als waarden. Daarnaast is matplotlib.pyplot beschikbaar als plt en pandas als pd.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in Python

Cursus bekijken

Oefeninstructies

  • Roep de methode .sort_values() aan op importances en wijs het resultaat toe aan importances_sorted.

  • Roep de methode .plot() aan op importances_sorted en stel de argumenten in:

    • kind op 'barh'
    • color op 'lightgreen'

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a pd.Series of features importances
importances = pd.Series(data=rf.feature_importances_,
                        index= X_train.columns)

# Sort importances
importances_sorted = ____

# Draw a horizontal barplot of importances_sorted
____.____(____='____', ____='____')
plt.title('Features Importances')
plt.show()
Code bewerken en uitvoeren