Verschillende sets variabelen gebruiken
Meer variabelen — en dus meer complexiteit — toevoegen aan je logistische regressiemodel levert niet automatisch een nauwkeuriger model op. In deze oefening kun je controleren of het toevoegen van 3 variabelen aan een model tot een nauwkeuriger model leidt.
variables_1 en variables_2 zijn beschikbaar in je omgeving: je kunt ze naar de console printen om te verkennen hoe ze eruitzien.
Deze oefening maakt deel uit van de cursus
Introductie tot Predictive Analytics in Python
Oefeninstructies
- Fit het
logreg-model metvariables_2, dat 3 extra variabelen bevat vergeleken metvariables_1. - Maak voorspellingen voor dit model.
- Bereken de AUC van dit model.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create appropriate DataFrames
X_1 = basetable[variables_1]
X_2 = basetable[variables_2]
y = basetable[["target"]]
# Create the logistic regression model
logreg = linear_model.LogisticRegression()
# Make predictions using the first set of variables and assign the AUC to auc_1
logreg.fit(X_1, y)
predictions_1 = logreg.predict_proba(X_1)[:,1]
auc_1 = roc_auc_score(y, predictions_1)
# Make predictions using the second set of variables and assign the AUC to auc_2
logreg.____(____, ____)
predictions_2 = ____.____(____)[____,____]
auc_2 = ____(____, ____)
# Print auc_1 and auc_2
print(round(auc_1,2))
print(round(auc_2,2))