Análise de sentimento com GBM

Agora vamos usar o GradientBoostingClassifier do scikit-learn no conjunto de dados reviews para prever o sentimento de uma avaliação a partir do seu texto.

Não vamos passar o texto bruto como entrada do modelo. O seguinte pré-processamento já foi feito para você:

Remover avaliações com valores ausentes.
Selecionar dados dos 5 principais apps.
Selecionar uma subamostra aleatória de 500 avaliações.
Remover "stop words" das avaliações.
Transformar as avaliações em uma matriz, em que cada variável representa a frequência de uma palavra em uma avaliação.

Quer se aprofundar em mineração de texto? Então confira o curso Introduction to Natural Language Processing in Python!

Este exercicio faz parte do curso

Métodos de Ensemble em Python

Ver curso

Instruções do exercicio

Construa um GradientBoostingClassifier com 100 estimadores e taxa de aprendizado de 0.1.
Calcule as previsões no conjunto de teste.
Calcule a acurácia para avaliar o modelo.
Calcule e imprima a matriz de confusão.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)

Editar e Executar Código