Extraire un paramètre de régression logistique
Vous allez maintenant vous entraîner à extraire un paramètre important du modèle de régression logistique. La régression logistique comporte d’autres paramètres que vous n’explorerez pas ici, mais vous pouvez les consulter dans la documentation de scikit-learn.org pour le module LogisticRegression() sous « Attributes ».
Ce paramètre est essentiel pour comprendre le sens et l’ampleur de l’effet des variables sur la cible.
Dans cet exercice, nous allons extraire le paramètre des coefficients (présent dans l’attribut coef_), l’associer aux noms de colonnes d’origine, puis identifier les variables ayant l’effet positif le plus fort sur la variable cible.
Vous avez à disposition :
- Un objet modèle de régression logistique nommé
log_reg_clf - Le DataFrame
X_train
sklearn et pandas ont été importés pour vous.
Cet exercice fait partie du cours
Optimisation des hyperparamètres en Python
Instructions
- Créez une liste des noms de colonnes d’origine utilisés dans le DataFrame d’entraînement.
- Extrayez les coefficients de l’estimateur de régression logistique.
- Créez un DataFrame contenant les coefficients et les noms de variables, puis affichez-le.
- Affichez les 3 variables « positives » principales en fonction de la valeur du coefficient.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a list of original variable names from the training DataFrame
original_variables = ____
# Extract the coefficients of the logistic regression estimator
model_coefficients = ____.____[____]
# Create a dataframe of the variables and coefficients & print it out
coefficient_df = pd.DataFrame({"Variable" : ____, "Coefficient": ____})
print(coefficient_df)
# Print out the top 3 positive variables
top_three_df = coefficient_df.sort_values(by=____, axis=0, ascending=____)[0:____]
print(top_three_df)