Een parameter van Logistic Regression extraheren
Je gaat nu oefenen met het extraheren van een belangrijke parameter van het logistic regression-model. Logistic regression heeft nog een paar andere parameters die je hier niet verkent, maar je kunt ze nalezen in de documentatie van scikit-learn.org voor de module LogisticRegression() onder 'Attributes'.
Deze parameter is belangrijk om de richting en de grootte van het effect van de variabelen op de target te begrijpen.
In deze oefening extraheren we de coefficient-parameter (te vinden in het attribuut coef_), combineren we die met de oorspronkelijke kolomnamen en bekijken we welke variabelen de grootste positieve invloed hadden op de targetvariabele.
Je hebt beschikbaar:
- Een logistic regression-modelobject met de naam
log_reg_clf - De DataFrame
X_train
sklearn en pandas zijn al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Hyperparameter Tuning in Python
Oefeninstructies
- Maak een lijst van de oorspronkelijke kolomnamen die in de trainings-DataFrame zijn gebruikt.
- Extraheer de coëfficiënten van de logistic regression-estimator.
- Maak een DataFrame met coëfficiënten en variabelenamen en bekijk deze.
- Print de top 3 ‘positieve’ variabelen op basis van de grootte van de coëfficiënt.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a list of original variable names from the training DataFrame
original_variables = ____
# Extract the coefficients of the logistic regression estimator
model_coefficients = ____.____[____]
# Create a dataframe of the variables and coefficients & print it out
coefficient_df = pd.DataFrame({"Variable" : ____, "Coefficient": ____})
print(coefficient_df)
# Print out the top 3 positive variables
top_three_df = coefficient_df.sort_values(by=____, axis=0, ascending=____)[0:____]
print(top_three_df)