Wichtige Features sortieren

Entscheidungsbäume sind unter anderem wegen ihrer Interpretierbarkeit sehr beliebt. Viele Modelle liefern genaue Vorhersagen, aber Entscheidungsbäume können zusätzlich den Einfluss der einzelnen Features auf das Ziel quantifizieren. Hier kann er dir sagen, welche Features den stärksten bzw. schwächsten Einfluss auf die Entscheidung haben, das Unternehmen zu verlassen. In sklearn erhältst du diese Information über das Attribut feature_importances_.

In dieser Übung ermittelst du die quantifizierte Wichtigkeit jedes Features, speicherst sie in einem pandas DataFrame (einer tabellarischen Datenstruktur in Python) und sortierst sie vom wichtigsten bis zum weniger wichtigen. Der in den vorherigen Übungen verwendete Decision-Tree-Classifier model_ best steht dir in deiner Arbeitsumgebung zur Verfügung, ebenso die Variablen features_test und features_train.

pandas wurde als pd importiert.

Diese Übung ist Teil des Kurses

HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen

Kurs anzeigen

Anleitung zur Übung

Verwende das Attribut feature_importances_, um relative Feature-Wichtigkeiten zu berechnen
Erstelle eine Liste der Features
Speichere die Ergebnisse in einem DataFrame mit der Funktion DataFrame(), wobei die Features die Zeilen bilden und ihre jeweiligen Werte eine Spalte sind
Sortiere den DataFrame relative_importances, sodass die wichtigsten Features oben stehen, mit der Funktion sort_values() und gib das Ergebnis aus

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Calculate feature importances
feature_importances = model_best.____

# Create a list of features: done
feature_list = list(features)

# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])

# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)

Code bearbeiten und ausführen