ComeçarComece de graça

Ordenando as variáveis mais importantes

Entre outras coisas, árvores de decisão são muito populares pela interpretabilidade. Muitos modelos conseguem fornecer previsões precisas, mas as árvores de decisão também quantificam o efeito das diferentes variáveis sobre o alvo. Aqui, o modelo pode indicar quais variáveis têm os impactos mais fortes e mais fracos na decisão de sair da empresa. No sklearn, você obtém essa informação usando o atributo feature_importances_.

Neste exercício, você vai obter a importância quantificada de cada variável, salvá-las em um DataFrame do pandas (uma tabela em Python) e ordená-las da mais importante para a menos importante. O classificador de Árvore de Decisão model_ best usado nos exercícios anteriores está disponível no seu workspace, assim como as variáveis features_test e features_train.

pandas já foi importado como pd.

Este exercício faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercício

  • Use o atributo feature_importances_ para calcular as importâncias relativas das variáveis
  • Crie uma lista de variáveis (features)
  • Salve os resultados em um DataFrame usando a função DataFrame(), em que as variáveis são as linhas e seus respectivos valores formam uma coluna
  • Ordene o DataFrame relative_importances para deixar as variáveis mais importantes no topo usando a função sort_values() e imprima o resultado

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Calculate feature importances
feature_importances = model_best.____

# Create a list of features: done
feature_list = list(features)

# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])

# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)
Editar e executar o código