Análise de sentimento com GBM
Agora vamos usar o GradientBoostingClassifier do scikit-learn no conjunto de dados reviews para prever o sentimento de uma avaliação a partir do seu texto.
Não vamos passar o texto bruto como entrada do modelo. O seguinte pré-processamento já foi feito para você:
- Remover avaliações com valores ausentes.
- Selecionar dados dos 5 principais apps.
- Selecionar uma subamostra aleatória de 500 avaliações.
- Remover "stop words" das avaliações.
- Transformar as avaliações em uma matriz, em que cada variável representa a frequência de uma palavra em uma avaliação.
Quer se aprofundar em mineração de texto? Então confira o curso Introduction to Natural Language Processing in Python!
Este exercício faz parte do curso
Métodos de Ensemble em Python
Instruções do exercício
- Construa um
GradientBoostingClassifiercom100estimadores e taxa de aprendizado de0.1. - Calcule as previsões no conjunto de teste.
- Calcule a acurácia para avaliar o modelo.
- Calcule e imprima a matriz de confusão.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)