Variáveis correlacionadas
As primeiras 10 variáveis adicionadas ao modelo são as seguintes:
['max_gift', 'number_gift', 'time_since_last_gift', 'mean_gift', 'income_high', 'age', 'country_USA', 'gender_F', 'income_low', 'country_UK']
Como você pode ver, min_gift não foi adicionada. Isso significa que ela é uma variável ruim? Você pode testar o desempenho da variável usando-a em um modelo como variável única e calculando a AUC. Como a AUC de min_gift se compara à AUC de income_high? Para isso, você pode usar a função auc():
auc(variables, target, basetable)
Pode acontecer de uma boa variável não ser adicionada porque é altamente correlacionada com uma variável que já está no modelo. Você pode testar isso calculando a correlação entre essas variáveis:
import numpy
numpy.corrcoef(basetable["variable_1"],basetable["variable_2"])[0,1]
Este exercício faz parte do curso
Introdução à Análise Preditiva em Python
Instruções do exercício
- Calcule a AUC do modelo usando apenas a variável
min_gift. - Calcule a AUC do modelo usando apenas a variável
income_high. - Calcule a correlação entre as variáveis
min_giftemean_gift.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
import numpy as np
# Calculate the AUC of the model using min_gift only
auc_min_gift = auc([____], ["target"], ____)
print(round(auc_min_gift,2))
# Calculate the AUC of the model using income_high only
auc_income_high = ____([____], [____], ____)
print(round(auc_income_high,2))
# Calculate the correlation between min_gift and mean_gift
correlation = np.corrcoef(basetable["____"], basetable["____"])[0,1]
print(round(correlation,2))