Construir e avaliar um modelo: reviews de filmes

Neste exercício, você vai construir um modelo de regressão logística usando o conjunto de dados movies. A pontuação está armazenada na coluna label e vale 1 quando a review é positiva e 0 quando é negativa. A review em texto foi transformada, usando BOW, em colunas numéricas.

Você já construiu um classificador, mas o avaliou usando os mesmos dados empregados na etapa de treino. Agora, certifique-se de avaliar o modelo usando um conjunto de teste não visto. Como o desempenho do modelo muda quando avaliado no conjunto de teste?

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Importe a função necessária para fazer a divisão treino/teste.
Faça a divisão treino/teste, especificando que 20% dos dados devem ser usados como conjunto de teste.
Treine um modelo de regressão logística.
Imprima a acurácia do modelo nos dados de treino e nos dados de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the required packages
from sklearn.linear_model import LogisticRegression
____

# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)

# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)

# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))

Editar e Executar Código