ComeçarComece de graça

Análise de sentimento com GBM

Agora vamos usar o GradientBoostingClassifier do scikit-learn no conjunto de dados reviews para prever o sentimento de uma avaliação a partir do seu texto.

Não vamos passar o texto bruto como entrada do modelo. O seguinte pré-processamento já foi feito para você:

  1. Remover avaliações com valores ausentes.
  2. Selecionar dados dos 5 principais apps.
  3. Selecionar uma subamostra aleatória de 500 avaliações.
  4. Remover "stop words" das avaliações.
  5. Transformar as avaliações em uma matriz, em que cada variável representa a frequência de uma palavra em uma avaliação.

Quer se aprofundar em mineração de texto? Então confira o curso Introduction to Natural Language Processing in Python!

Este exercício faz parte do curso

Métodos de Ensemble em Python

Ver curso

Instruções do exercício

  • Construa um GradientBoostingClassifier com 100 estimadores e taxa de aprendizado de 0.1.
  • Calcule as previsões no conjunto de teste.
  • Calcule a acurácia para avaliar o modelo.
  • Calcule e imprima a matriz de confusão.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)
Editar e executar o código