Overtreding van de tijdlijn
Om het belang van de tijdlijn te illustreren, bekijken we een voorbeeld waarin je de tijdlijn overtreedt en informatie uit de targetperiode gebruikt om de voorspellende variabelen te construeren.
Er zijn twee kolommen in de pandas-dataframe basetable: "amount_2017" is het totale bedrag aan donaties in 2017, en "target" is 1 als dit bedrag groter is dan 30 en anders 0.
Construeer een logistisch regressiemodel dat "amount_2017" als enige voorspellende variabele gebruikt om de target te voorspellen, en bereken de AUC.
Deze oefening maakt deel uit van de cursus
Gevorderde voorspellende analyse in Python
Oefeninstructies
- Maak een dataframe
Xdat de voorspellende variabele bevat en een dataframeydat de target bevat. - Fit het logistisch regressiemodel zodat
ywordt voorspeld op basis vanX. Construeer een logistisch regressiemodel datamount_2017als enige voorspellende variabele gebruikt entargetvoorspelt. - Maak voorspellingen voor de objecten in
X. - Bereken en print de AUC van dit model met de functie
roc_auc_score.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select the relevant predictors and the target
X = basetable[["____"]]
y = basetable[["____"]]
# Build the logistic regression model
logreg = linear_model.LogisticRegression()
logreg.____(____, ____)
# Make predictions for X
predictions = logreg.____(____)[:,1]
# Calculate and print the AUC value
auc = ____(____, ____)
print(round(auc, 2))