Avis produits avec régularisation

Dans cet exercice, vous allez de nouveau travailler avec le jeu de données reviews d’avis produits Amazon. Un vecteur de labels y contient le sentiment : 1 si positif, et 0 sinon. La matrice X contient toutes les variables numériques créées avec une approche BOW.

Vous devrez entraîner deux modèles de régression logistique avec des niveaux de régularisation différents et comparer leurs performances sur les données de test. Rappelez-vous que la régularisation permet de contrôler la complexité du modèle. Plus un modèle est régularisé, moins il est flexible, mais mieux il peut généraliser. Les modèles avec un niveau de régularisation plus élevé sont souvent moins précis que ceux non régularisés.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Séparez les données en ensembles d’entraînement et de test.
Entraînez une régression logistique avec un paramètre de régularisation 1000. Entraînez une seconde régression logistique avec un paramètre de régularisation égal à 0.001.
Affichez les scores de précision des deux modèles sur l’ensemble de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)

# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)

# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))

Modifier et exécuter le code