Construire et évaluer un modèle : critiques de films
Dans cet exercice, vous allez construire un modèle de régression logistique à partir du jeu de données movies. Le score est stocké dans la colonne label et vaut 1 lorsque l’avis est positif, et 0 lorsqu’il est négatif. La critique textuelle a été transformée en colonnes numériques à l’aide de BOW.
Vous avez déjà entraîné un classificateur, mais vous l’avez évalué avec les mêmes données que celles utilisées pour l’entraînement. Assurez-vous maintenant d’évaluer le modèle sur un jeu de test jamais vu. Comment la performance du modèle évolue-t‑elle lorsqu’il est évalué sur l’ensemble de test ?
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez la fonction nécessaire pour réaliser une séparation apprentissage/test.
- Effectuez la séparation apprentissage/test en précisant que 20 % des données doivent être utilisées comme ensemble de test.
- Entraînez un modèle de régression logistique.
- Affichez la précision du modèle sur les données d’entraînement et sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required packages
from sklearn.linear_model import LogisticRegression
____
# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)
# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)
# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))