Interpretando resultados

Quase sempre é importante saber quais variáveis estão influenciando mais a sua previsão. Talvez seja algo contraintuitivo — e isso já é um insight. Talvez um pequeno conjunto de variáveis responda pela maior parte da acurácia do seu modelo, e você não precise gastar tempo coletando ou ajustando outras variáveis.

Neste exemplo, vamos analisar um modelo que foi treinado sem nenhuma informação de LISTPRICE. Sem esse dado, o que mais influencia o preço?

OBSERVAÇÃO: O array de importâncias das variáveis, importances, já foi criado para você a partir de model.featureImportances.toArray()

Este exercicio faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercicio

Crie um dataframe do pandas usando os valores de importances e nomeie a coluna como importance definindo o parâmetro columns.
Usando a lista importada de nomes de variáveis, feature_cols, crie uma nova pandas.Series envolvendo-a com a função pd.Series(). Atribua ao campo fi_df['feature'].
Ordene o dataframe usando sort_values(), definindo o parâmetro by para nossa coluna importance e ordene em ordem decrescente definindo ascending como False. Inspecione os resultados.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Convert feature importances to a pandas column
fi_df = pd.DataFrame(____, columns=[____])

# Convert list of feature names to pandas column
fi_df['feature'] = pd.____(____)

# Sort the data based on feature importance
fi_df.____(by=[____], ascending=____, inplace=True)

# Inspect Results
fi_df.head(10)

Editar e Executar Código