Ordinare le feature importanti

Tra le altre cose, gli alberi decisionali (Decision Trees) sono molto popolari per la loro interpretabilità. Molti modelli possono fornire previsioni accurate, ma i Decision Trees possono anche quantificare l’effetto delle diverse feature sul target. Qui, possono dirti quali feature hanno l’impatto più forte e più debole sulla decisione di lasciare l’azienda. In sklearn, puoi ottenere queste informazioni usando l’attributo feature_importances_.

In questo esercizio, otterrai l’importanza quantificata di ciascuna feature, la salverai in un DataFrame di pandas (una tabella “alla Python”) e le ordinerai dalla più importante alla meno importante. Il classificatore Decision Tree model_ best utilizzato negli esercizi precedenti è disponibile nel tuo workspace, così come le variabili features_test e features_train.

pandas è già stato importato come pd.

Questo esercizio fa parte del corso

HR Analytics: prevedere l'abbandono dei dipendenti in Python

Visualizza il corso

Istruzioni dell'esercizio

Usa l’attributo feature_importances_ per calcolare le importanze relative delle feature
Crea una lista delle feature
Salva i risultati in un DataFrame usando la funzione DataFrame(), dove le feature sono righe e i rispettivi valori sono una colonna
Ordina il DataFrame relative_importances per avere in alto le feature più importanti usando la funzione sort_values() e stampa il risultato

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Calculate feature importances
feature_importances = model_best.____

# Create a list of features: done
feature_list = list(features)

# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])

# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)

Modifica ed esegui il codice