Violation de la chronologie
Pour illustrer l’importance de la chronologie, prenons un exemple où vous la violez en utilisant des informations de la période cible pour construire les variables prédictives.
Le dataframe pandas basetable contient deux colonnes : "amount_2017" correspond au montant total des dons en 2017, et "target" vaut 1 si ce montant est supérieur à 30, sinon 0.
Construisez un modèle de régression logistique qui utilise "amount_2017" comme unique variable prédictive pour prédire la cible, puis calculez l’AUC.
Cet exercice fait partie du cours
Analytique prédictive intermédiaire en Python
Instructions
- Créez un dataframe
Xqui contient la variable prédictive et un dataframeyqui contient la cible. - Ajustez le modèle de régression logistique de sorte que
ysoit prédite à partir deX. Construisez un modèle de régression logistique qui utiliseamount_2017comme unique variable prédictive et qui prédittarget. - Générez des prédictions pour les objets de
X. - Calculez et affichez l’AUC de ce modèle à l’aide de la fonction
roc_auc_score.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select the relevant predictors and the target
X = basetable[["____"]]
y = basetable[["____"]]
# Build the logistic regression model
logreg = linear_model.LogisticRegression()
logreg.____(____, ____)
# Make predictions for X
predictions = logreg.____(____)[:,1]
# Calculate and print the AUC value
auc = ____(____, ____)
print(round(auc, 2))