Métricas de desempenho com dados do Twitter
Você vai treinar um modelo de regressão logística que prevê o sentimento de tweets e avaliar seu desempenho no conjunto de teste usando métricas diferentes.
Uma matriz X foi criada para você. Ela contém atributos gerados com um BOW na coluna text.
Os rótulos estão em um vetor chamado y. O vetor y é 0 para tweets negativos, 1 para neutros e 2 para positivos.
Perceba que, embora tenhamos 3 classes, ainda é um problema de classificação. A acurácia continua medindo a proporção de instâncias previstas corretamente. A matriz de confusão agora terá tamanho 3x3: cada linha mostrará o número de casos previstos para as classes 2, 1 e 0, e cada coluna — o número real de casos nas classes 2, 1 e 0.
Todos os pacotes necessários já foram importados para você.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Faça a divisão treino/teste e estratifique por
y. - Treine um classificador de regressão logística.
- Faça as previsões no conjunto de teste.
- Imprima a acurácia e a matriz de confusão obtidas no conjunto de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = ____(X, y, test_size=0.3, random_state=123, ____=y)
# Train a logistic regression
log_reg = ____.____(___, ____)
# Make predictions on the test set
y_predicted = log_reg.____(___)
# Print the performance metrics
print('Accuracy score test set: ', ____(y_test, y_predicted))
print('Confusion matrix test set: \n', ____(y_test, y_predicted)/len(y_test))