Métricas de desempenho com dados do Twitter

Você vai treinar um modelo de regressão logística que prevê o sentimento de tweets e avaliar seu desempenho no conjunto de teste usando métricas diferentes.

Uma matriz X foi criada para você. Ela contém atributos gerados com um BOW na coluna text.

Os rótulos estão em um vetor chamado y. O vetor y é 0 para tweets negativos, 1 para neutros e 2 para positivos. Perceba que, embora tenhamos 3 classes, ainda é um problema de classificação. A acurácia continua medindo a proporção de instâncias previstas corretamente. A matriz de confusão agora terá tamanho 3x3: cada linha mostrará o número de casos previstos para as classes 2, 1 e 0, e cada coluna — o número real de casos nas classes 2, 1 e 0.

Todos os pacotes necessários já foram importados para você.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Faça a divisão treino/teste e estratifique por y.
Treine um classificador de regressão logística.
Faça as previsões no conjunto de teste.
Imprima a acurácia e a matriz de confusão obtidas no conjunto de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = ____(X, y, test_size=0.3, random_state=123, ____=y)

# Train a logistic regression
log_reg = ____.____(___, ____)

# Make predictions on the test set
y_predicted = log_reg.____(___)

# Print the performance metrics
print('Accuracy score test set: ', ____(y_test, y_predicted))
print('Confusion matrix test set: \n', ____(y_test, y_predicted)/len(y_test))

Editar e Executar Código