Analyse de sentiments avec GBM
Utilisons maintenant le GradientBoostingClassifier de scikit-learn sur le jeu de données reviews pour prédire le sentiment d’un avis à partir de son texte.
Nous ne fournirons pas le texte brut en entrée du modèle. Le prétraitement suivant a été effectué pour vous :
- Suppression des avis avec des valeurs manquantes.
- Sélection des données des 5 principales applications.
- Sélection d’un sous-échantillon aléatoire de 500 avis.
- Suppression des « stop words » des avis.
- Transformation des avis en matrice, où chaque caractéristique représente la fréquence d’un mot dans un avis.
Vous souhaitez approfondir le text mining ? Consultez le cours Introduction to Natural Language Processing in Python !
Cet exercice fait partie du cours
Méthodes d’ensemble en Python
Instructions
- Créez un
GradientBoostingClassifieravec100estimateurs et un taux d’apprentissage de0.1. - Calculez les prédictions sur l’ensemble de test.
- Calculez la précision pour évaluer le modèle.
- Calculez et affichez la matrice de confusion.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)