Ordinare le feature importanti
Tra le altre cose, gli alberi decisionali (Decision Trees) sono molto popolari per la loro interpretabilità. Molti modelli possono fornire previsioni accurate, ma i Decision Trees possono anche quantificare l’effetto delle diverse feature sul target. Qui, possono dirti quali feature hanno l’impatto più forte e più debole sulla decisione di lasciare l’azienda. In sklearn, puoi ottenere queste informazioni usando l’attributo feature_importances_.
In questo esercizio, otterrai l’importanza quantificata di ciascuna feature, la salverai in un DataFrame di pandas (una tabella “alla Python”) e le ordinerai dalla più importante alla meno importante. Il classificatore Decision Tree model_ best utilizzato negli esercizi precedenti è disponibile nel tuo workspace, così come le variabili features_test e features_train.
pandas è già stato importato come pd.
Questo esercizio fa parte del corso
HR Analytics: prevedere l'abbandono dei dipendenti in Python
Istruzioni dell'esercizio
- Usa l’attributo
feature_importances_per calcolare le importanze relative delle feature - Crea una lista delle feature
- Salva i risultati in un DataFrame usando la funzione
DataFrame(), dove le feature sono righe e i rispettivi valori sono una colonna - Ordina il DataFrame
relative_importancesper avere in alto le feature più importanti usando la funzionesort_values()e stampa il risultato
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Calculate feature importances
feature_importances = model_best.____
# Create a list of features: done
feature_list = list(features)
# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])
# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)