Wichtige Features sortieren
Entscheidungsbäume sind unter anderem wegen ihrer Interpretierbarkeit sehr beliebt. Viele Modelle liefern genaue Vorhersagen, aber Entscheidungsbäume können zusätzlich den Einfluss der einzelnen Features auf das Ziel quantifizieren. Hier kann er dir sagen, welche Features den stärksten bzw. schwächsten Einfluss auf die Entscheidung haben, das Unternehmen zu verlassen. In sklearn erhältst du diese Information über das Attribut feature_importances_.
In dieser Übung ermittelst du die quantifizierte Wichtigkeit jedes Features, speicherst sie in einem pandas DataFrame (einer tabellarischen Datenstruktur in Python) und sortierst sie vom wichtigsten bis zum weniger wichtigen. Der in den vorherigen Übungen verwendete Decision-Tree-Classifier model_ best steht dir in deiner Arbeitsumgebung zur Verfügung, ebenso die Variablen features_test und features_train.
pandas wurde als pd importiert.
Diese Übung ist Teil des Kurses
HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen
Anleitung zur Übung
- Verwende das Attribut
feature_importances_, um relative Feature-Wichtigkeiten zu berechnen - Erstelle eine Liste der Features
- Speichere die Ergebnisse in einem DataFrame mit der Funktion
DataFrame(), wobei die Features die Zeilen bilden und ihre jeweiligen Werte eine Spalte sind - Sortiere den DataFrame
relative_importances, sodass die wichtigsten Features oben stehen, mit der Funktionsort_values()und gib das Ergebnis aus
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Calculate feature importances
feature_importances = model_best.____
# Create a list of features: done
feature_list = list(features)
# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])
# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)