CommencerCommencer gratuitement

Analyse de sentiments avec GBM

Utilisons maintenant le GradientBoostingClassifier de scikit-learn sur le jeu de données reviews pour prédire le sentiment d’un avis à partir de son texte.

Nous ne fournirons pas le texte brut en entrée du modèle. Le prétraitement suivant a été effectué pour vous :

  1. Suppression des avis avec des valeurs manquantes.
  2. Sélection des données des 5 principales applications.
  3. Sélection d’un sous-échantillon aléatoire de 500 avis.
  4. Suppression des « stop words » des avis.
  5. Transformation des avis en matrice, où chaque caractéristique représente la fréquence d’un mot dans un avis.

Vous souhaitez approfondir le text mining ? Consultez le cours Introduction to Natural Language Processing in Python !

Cet exercice fait partie du cours

Méthodes d’ensemble en Python

Afficher le cours

Instructions

  • Créez un GradientBoostingClassifier avec 100 estimateurs et un taux d’apprentissage de 0.1.
  • Calculez les prédictions sur l’ensemble de test.
  • Calculez la précision pour évaluer le modèle.
  • Calculez et affichez la matrice de confusion.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)
Modifier et exécuter le code