Estrazione di un parametro della Logistic Regression
Ora metterai in pratica l’estrazione di un parametro importante del modello di logistic regression. La logistic regression ha anche altri parametri che non esplorerai qui, ma puoi rivederli nella documentazione di scikit-learn.org per il modulo LogisticRegression() alla voce "Attributes".
Questo parametro è importante per capire la direzione e l’entità dell’effetto che le variabili hanno sul target.
In questo esercizio estrarremo il parametro dei coefficienti (nell’attributo coef_), lo abbineremo ai nomi originali delle colonne e vedremo quali variabili hanno avuto l’effetto positivo più grande sulla variabile target.
Avrai a disposizione:
- Un oggetto modello di logistic regression chiamato
log_reg_clf - Il DataFrame
X_train
sklearn e pandas sono già stati importati per te.
Questo esercizio fa parte del corso
Ottimizzazione degli iperparametri in Python
Istruzioni dell'esercizio
- Crea un elenco dei nomi originali delle colonne usate nel DataFrame di training.
- Estrai i coefficienti dello stimatore di logistic regression.
- Crea un DataFrame con coefficienti e nomi delle variabili e visualizzalo.
- Stampa le 3 variabili con coefficiente più alto (quelle "positive").
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a list of original variable names from the training DataFrame
original_variables = ____
# Extract the coefficients of the logistic regression estimator
model_coefficients = ____.____[____]
# Create a dataframe of the variables and coefficients & print it out
coefficient_df = pd.DataFrame({"Variable" : ____, "Coefficient": ____})
print(coefficient_df)
# Print out the top 3 positive variables
top_three_df = coefficient_df.sort_values(by=____, axis=0, ascending=____)[0:____]
print(top_three_df)