Violación de la línea temporal
Para ilustrar la importancia de la línea temporal, considera un ejemplo en el que la violas y usas información del periodo objetivo para construir las variables predictivas.
Hay dos columnas en el dataframe de pandas basetable: "amount_2017" es el total de donaciones en 2017, y "target" vale 1 si este importe es mayor que 30 y 0 en caso contrario.
Construye un modelo de regresión logística que use "amount_2017" como única variable predictiva para predecir el objetivo y calcula el AUC.
Este ejercicio forma parte del curso
Análisis predictivo intermedio en Python
Instrucciones del ejercicio
- Crea un dataframe
Xque contenga la variable predictiva y un dataframeyque contenga el objetivo. - Ajusta el modelo de regresión logística de modo que
yse prediga a partir deX. Construye un modelo de regresión logística que useamount_2017como única variable predictiva y predigatarget. - Realiza predicciones para los objetos en
X. - Calcula e imprime el AUC de este modelo usando la función
roc_auc_score.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Select the relevant predictors and the target
X = basetable[["____"]]
y = basetable[["____"]]
# Build the logistic regression model
logreg = linear_model.LogisticRegression()
logreg.____(____, ____)
# Make predictions for X
predictions = logreg.____(____)[:,1]
# Calculate and print the AUC value
auc = ____(____, ____)
print(round(auc, 2))