Visualização da importância dos recursos

Neste exercício, você determinará quais recursos foram os mais preditivos de acordo com o regressor de florestas aleatórias rf que você treinou em um exercício anterior.

Para isso, você desenhará um gráfico de barras horizontal da importância do recurso, conforme avaliado por rf. Felizmente, isso pode ser feito facilmente graças aos recursos de plotagem do pandas.

Criamos um objeto pandas.Series chamado importances que contém os nomes dos recursos como index e suas importâncias como valores. Além disso, matplotlib.pyplot está disponível como plt e pandas como pd.

Este exercício faz parte do curso

Aprendizado de máquina com modelos baseados em árvores em Python

Ver Curso

Instruções de exercício

  • Chame o método .sort_values() em importances e atribua o resultado a importances_sorted.

  • Chame o método .plot() em importances_sorted e defina os argumentos:

    • kind para 'barh'

    • color para 'lightgreen'

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create a pd.Series of features importances
importances = pd.Series(data=rf.feature_importances_,
                        index= X_train.columns)

# Sort importances
importances_sorted = ____

# Draw a horizontal barplot of importances_sorted
____.____(____='____', ____='____')
plt.title('Features Importances')
plt.show()