Étape 3 : Construire un classifieur

C’est la dernière étape de notre prédiction de sentiment. Nous avons exploré et enrichi notre jeu de données avec des variables liées au sentiment, puis nous l’avons vectorisé en valeurs numériques.

Vous allez utiliser le jeu de données construit aux étapes précédentes. Il contient une variable pour la longueur des avis et 200 variables issues du vectoriseur Tfidf.

Votre objectif est d’entraîner une régression logistique pour prédire le sentiment. Les données ont été importées pour vous sous le nom reviews_transformed. La cible s’appelle score et est binaire : 1 quand l’avis produit est positif et 0 sinon.

Entraînez un modèle de régression logistique et évaluez ses performances sur les données de test. Le modèle s’en sort-il bien ?

Tous les packages nécessaires ont été importés pour vous.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Réalisez le découpage entraînement/test, avec 20 % des données pour le test et la graine aléatoire fixée à 456.
Entraînez un modèle de régression logistique.
Prédisez la classe.
Affichez l’accuracy et la matrice de confusion sur l’ensemble de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define X and y
y = reviews_transformed.score
X = reviews_transformed.drop('score', axis=1)

# Train/test split
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.2, ____=456)

# Train a logistic regression
log_reg = ____.____(____, ____)
# Predict the labels
y_predicted = log_reg.____(____)

# Print accuracy score and confusion matrix on test set
print('Accuracy on the test set: ', ____(____, ____))
print(____(____, ____)/len(y_test))

Modifier et exécuter le code