Aan de slagGa gratis aan de slag

Overtreding van de tijdlijn

Om het belang van de tijdlijn te illustreren, bekijken we een voorbeeld waarin je de tijdlijn overtreedt en informatie uit de targetperiode gebruikt om de voorspellende variabelen te construeren.

Er zijn twee kolommen in de pandas-dataframe basetable: "amount_2017" is het totale bedrag aan donaties in 2017, en "target" is 1 als dit bedrag groter is dan 30 en anders 0.

Construeer een logistisch regressiemodel dat "amount_2017" als enige voorspellende variabele gebruikt om de target te voorspellen, en bereken de AUC.

Deze oefening maakt deel uit van de cursus

Gevorderde voorspellende analyse in Python

Cursus bekijken

Oefeninstructies

  • Maak een dataframe X dat de voorspellende variabele bevat en een dataframe y dat de target bevat.
  • Fit het logistisch regressiemodel zodat y wordt voorspeld op basis van X. Construeer een logistisch regressiemodel dat amount_2017 als enige voorspellende variabele gebruikt en target voorspelt.
  • Maak voorspellingen voor de objecten in X.
  • Bereken en print de AUC van dit model met de functie roc_auc_score.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Select the relevant predictors and the target
X = basetable[["____"]]
y = basetable[["____"]]

# Build the logistic regression model
logreg = linear_model.LogisticRegression()
logreg.____(____, ____)

# Make predictions for X
predictions = logreg.____(____)[:,1]

# Calculate and print the AUC value
auc = ____(____, ____)
print(round(auc, 2))
Code bewerken en uitvoeren