Ordenando as variáveis mais importantes
Entre outras coisas, árvores de decisão são muito populares pela interpretabilidade. Muitos modelos conseguem fornecer previsões precisas, mas as árvores de decisão também quantificam o efeito das diferentes variáveis sobre o alvo. Aqui, o modelo pode indicar quais variáveis têm os impactos mais fortes e mais fracos na decisão de sair da empresa. No sklearn, você obtém essa informação usando o atributo feature_importances_.
Neste exercício, você vai obter a importância quantificada de cada variável, salvá-las em um DataFrame do pandas (uma tabela em Python) e ordená-las da mais importante para a menos importante. O classificador de Árvore de Decisão model_ best usado nos exercícios anteriores está disponível no seu workspace, assim como as variáveis features_test e features_train.
pandas já foi importado como pd.
Este exercício faz parte do curso
HR Analytics: prevendo rotatividade de funcionários em Python
Instruções do exercício
- Use o atributo
feature_importances_para calcular as importâncias relativas das variáveis - Crie uma lista de variáveis (features)
- Salve os resultados em um DataFrame usando a função
DataFrame(), em que as variáveis são as linhas e seus respectivos valores formam uma coluna - Ordene o DataFrame
relative_importancespara deixar as variáveis mais importantes no topo usando a funçãosort_values()e imprima o resultado
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Calculate feature importances
feature_importances = model_best.____
# Create a list of features: done
feature_list = list(features)
# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])
# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)