Construire et évaluer un modèle : critiques de films

Dans cet exercice, vous allez construire un modèle de régression logistique à partir du jeu de données movies. Le score est stocké dans la colonne label et vaut 1 lorsque l’avis est positif, et 0 lorsqu’il est négatif. La critique textuelle a été transformée en colonnes numériques à l’aide de BOW.

Vous avez déjà entraîné un classificateur, mais vous l’avez évalué avec les mêmes données que celles utilisées pour l’entraînement. Assurez-vous maintenant d’évaluer le modèle sur un jeu de test jamais vu. Comment la performance du modèle évolue-t‑elle lorsqu’il est évalué sur l’ensemble de test ?

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

Importez la fonction nécessaire pour réaliser une séparation apprentissage/test.
Effectuez la séparation apprentissage/test en précisant que 20 % des données doivent être utilisées comme ensemble de test.
Entraînez un modèle de régression logistique.
Affichez la précision du modèle sur les données d’entraînement et sur les données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the required packages
from sklearn.linear_model import LogisticRegression
____

# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)

# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)

# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))

Modifier et exécuter le code