Analyse de sentiments avec GBM

Utilisons maintenant le GradientBoostingClassifier de scikit-learn sur le jeu de données reviews pour prédire le sentiment d’un avis à partir de son texte.

Nous ne fournirons pas le texte brut en entrée du modèle. Le prétraitement suivant a été effectué pour vous :

Suppression des avis avec des valeurs manquantes.
Sélection des données des 5 principales applications.
Sélection d’un sous-échantillon aléatoire de 500 avis.
Suppression des « stop words » des avis.
Transformation des avis en matrice, où chaque caractéristique représente la fréquence d’un mot dans un avis.

Vous souhaitez approfondir le text mining ? Consultez le cours Introduction to Natural Language Processing in Python !

Cet exercice fait partie du cours

<cours>Méthodes d’ensemble en Python</cours>

Voir le cours

Instructions de l’exercice

Créez un GradientBoostingClassifier avec 100 estimateurs et un taux d’apprentissage de 0.1.
Calculez les prédictions sur l’ensemble de test.
Calculez la précision pour évaluer le modèle.
Calculez et affichez la matrice de confusion.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)

Modifier et exécuter le code