Etapa 3: Construindo um classificador

Esta é a última etapa da previsão de sentimento. Nós exploramos e enriquecemos nosso conjunto de dados com atributos relacionados ao sentimento e criamos vetores numéricos a partir dele.

Você vai usar o conjunto de dados que construiu nas etapas anteriores. Especificamente, ele contém um atributo com o comprimento das avaliações e 200 atributos criados com o vetorizador Tfidf.

Sua tarefa é treinar uma regressão logística para prever o sentimento. Os dados já foram importados para você e se chamam reviews_transformed. O alvo se chama score e é binário: 1 quando a avaliação do produto é positiva e 0 caso contrário.

Treine um modelo de regressão logística e avalie seu desempenho nos dados de teste. Quão bem o modelo se sai?

Todos os pacotes necessários já foram importados para você.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Faça a divisão treino/teste, reservando 20% dos dados para teste e definindo a semente aleatória como 456.
Treine um modelo de regressão logística.
Faça a predição da classe.
Imprima a pontuação de acurácia e a matriz de confusão no conjunto de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Define X and y
y = reviews_transformed.score
X = reviews_transformed.drop('score', axis=1)

# Train/test split
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.2, ____=456)

# Train a logistic regression
log_reg = ____.____(____, ____)
# Predict the labels
y_predicted = log_reg.____(____)

# Print accuracy score and confusion matrix on test set
print('Accuracy on the test set: ', ____(____, ____))
print(____(____, ____)/len(y_test))

Editar e Executar Código