Etapa 3: Construindo um classificador
Esta é a última etapa da previsão de sentimento. Nós exploramos e enriquecemos nosso conjunto de dados com atributos relacionados ao sentimento e criamos vetores numéricos a partir dele.
Você vai usar o conjunto de dados que construiu nas etapas anteriores. Especificamente, ele contém um atributo com o comprimento das avaliações e 200 atributos criados com o vetorizador Tfidf.
Sua tarefa é treinar uma regressão logística para prever o sentimento. Os dados já foram importados para você e se chamam reviews_transformed. O alvo se chama score e é binário: 1 quando a avaliação do produto é positiva e 0 caso contrário.
Treine um modelo de regressão logística e avalie seu desempenho nos dados de teste. Quão bem o modelo se sai?
Todos os pacotes necessários já foram importados para você.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Faça a divisão treino/teste, reservando 20% dos dados para teste e definindo a semente aleatória como
456. - Treine um modelo de regressão logística.
- Faça a predição da classe.
- Imprima a pontuação de acurácia e a matriz de confusão no conjunto de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define X and y
y = reviews_transformed.score
X = reviews_transformed.drop('score', axis=1)
# Train/test split
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.2, ____=456)
# Train a logistic regression
log_reg = ____.____(____, ____)
# Predict the labels
y_predicted = log_reg.____(____)
# Print accuracy score and confusion matrix on test set
print('Accuracy on the test set: ', ____(____, ____))
print(____(____, ____)/len(y_test))