Variabili correlate
Le prime 10 variabili aggiunte al modello sono le seguenti:
['max_gift', 'number_gift', 'time_since_last_gift', 'mean_gift', 'income_high', 'age', 'country_USA', 'gender_F', 'income_low', 'country_UK']
Come puoi vedere, min_gift non è stata aggiunta. Significa che è una variabile scadente? Puoi verificarne le prestazioni usandola in un modello come unica variabile e calcolando l'AUC. Come si confronta l'AUC di min_gift con l'AUC di income_high? A questo scopo, puoi usare la funzione auc():
auc(variables, target, basetable)
Può capitare che una buona variabile non venga aggiunta perché è altamente correlata con una variabile già presente nel modello. Puoi verificarlo calcolando la correlazione tra queste variabili:
import numpy
numpy.corrcoef(basetable["variable_1"],basetable["variable_2"])[0,1]
Questo esercizio fa parte del corso
Introduzione alla Predictive Analytics in Python
Istruzioni dell'esercizio
- Calcola l'AUC del modello usando solo la variabile
min_gift. - Calcola l'AUC del modello usando solo la variabile
income_high. - Calcola la correlazione tra la variabile
min_giftemean_gift.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
import numpy as np
# Calculate the AUC of the model using min_gift only
auc_min_gift = auc([____], ["target"], ____)
print(round(auc_min_gift,2))
# Calculate the AUC of the model using income_high only
auc_income_high = ____([____], [____], ____)
print(round(auc_income_high,2))
# Calculate the correlation between min_gift and mean_gift
correlation = np.corrcoef(basetable["____"], basetable["____"])[0,1]
print(round(correlation,2))