CommencerCommencer gratuitement

Violation de la chronologie

Pour illustrer l’importance de la chronologie, prenons un exemple où vous la violez en utilisant des informations de la période cible pour construire les variables prédictives.

Le dataframe pandas basetable contient deux colonnes : "amount_2017" correspond au montant total des dons en 2017, et "target" vaut 1 si ce montant est supérieur à 30, sinon 0.

Construisez un modèle de régression logistique qui utilise "amount_2017" comme unique variable prédictive pour prédire la cible, puis calculez l’AUC.

Cet exercice fait partie du cours

Analytique prédictive intermédiaire en Python

Afficher le cours

Instructions

  • Créez un dataframe X qui contient la variable prédictive et un dataframe y qui contient la cible.
  • Ajustez le modèle de régression logistique de sorte que y soit prédite à partir de X. Construisez un modèle de régression logistique qui utilise amount_2017 comme unique variable prédictive et qui prédit target.
  • Générez des prédictions pour les objets de X.
  • Calculez et affichez l’AUC de ce modèle à l’aide de la fonction roc_auc_score.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select the relevant predictors and the target
X = basetable[["____"]]
y = basetable[["____"]]

# Build the logistic regression model
logreg = linear_model.LogisticRegression()
logreg.____(____, ____)

# Make predictions for X
predictions = logreg.____(____)[:,1]

# Calculate and print the AUC value
auc = ____(____, ____)
print(round(auc, 2))
Modifier et exécuter le code