Variabel yang berkorelasi
Sepuluh variabel pertama yang ditambahkan ke model adalah sebagai berikut:
['max_gift', 'number_gift', 'time_since_last_gift', 'mean_gift', 'income_high', 'age', 'country_USA', 'gender_F', 'income_low', 'country_UK']
Seperti yang Anda lihat, min_gift tidak ditambahkan. Apakah ini berarti variabel tersebut buruk? Anda dapat menguji kinerja variabel tersebut dengan menggunakannya dalam model sebagai satu-satunya variabel dan menghitung AUC. Bagaimana AUC min_gift dibandingkan dengan AUC income_high? Untuk itu, Anda dapat menggunakan fungsi auc():
auc(variables, target, basetable)
Ada kalanya variabel yang sebenarnya baik tidak ditambahkan karena sangat berkorelasi dengan variabel yang sudah ada dalam model. Anda dapat mengujinya dengan menghitung korelasi antara variabel-variabel tersebut:
import numpy
numpy.corrcoef(basetable["variable_1"],basetable["variable_2"])[0,1]
Latihan ini adalah bagian dari kursus
Pengantar Predictive Analytics dengan Python
Petunjuk latihan
- Hitung AUC model dengan hanya menggunakan variabel
min_gift. - Hitung AUC model dengan hanya menggunakan variabel
income_high. - Hitung korelasi antara variabel
min_giftdanmean_gift.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
import numpy as np
# Calculate the AUC of the model using min_gift only
auc_min_gift = auc([____], ["target"], ____)
print(round(auc_min_gift,2))
# Calculate the AUC of the model using income_high only
auc_income_high = ____([____], [____], ____)
print(round(auc_income_high,2))
# Calculate the correlation between min_gift and mean_gift
correlation = np.corrcoef(basetable["____"], basetable["____"])[0,1]
print(round(correlation,2))