Ordenando as variáveis mais importantes

Entre outras coisas, árvores de decisão são muito populares pela interpretabilidade. Muitos modelos conseguem fornecer previsões precisas, mas as árvores de decisão também quantificam o efeito das diferentes variáveis sobre o alvo. Aqui, o modelo pode indicar quais variáveis têm os impactos mais fortes e mais fracos na decisão de sair da empresa. No sklearn, você obtém essa informação usando o atributo feature_importances_.

Neste exercício, você vai obter a importância quantificada de cada variável, salvá-las em um DataFrame do pandas (uma tabela em Python) e ordená-las da mais importante para a menos importante. O classificador de Árvore de Decisão model_ best usado nos exercícios anteriores está disponível no seu workspace, assim como as variáveis features_test e features_train.

pandas já foi importado como pd.

Este exercício faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercício

Use o atributo feature_importances_ para calcular as importâncias relativas das variáveis
Crie uma lista de variáveis (features)
Salve os resultados em um DataFrame usando a função DataFrame(), em que as variáveis são as linhas e seus respectivos valores formam uma coluna
Ordene o DataFrame relative_importances para deixar as variáveis mais importantes no topo usando a função sort_values() e imprima o resultado

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Calculate feature importances
feature_importances = model_best.____

# Create a list of features: done
feature_list = list(features)

# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])

# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)

Editar e executar o código