Construir e avaliar um modelo: reviews de filmes
Neste exercício, você vai construir um modelo de regressão logística usando o conjunto de dados movies. A pontuação está armazenada na coluna label e vale 1 quando a review é positiva e 0 quando é negativa. A review em texto foi transformada, usando BOW, em colunas numéricas.
Você já construiu um classificador, mas o avaliou usando os mesmos dados empregados na etapa de treino. Agora, certifique-se de avaliar o modelo usando um conjunto de teste não visto. Como o desempenho do modelo muda quando avaliado no conjunto de teste?
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe a função necessária para fazer a divisão treino/teste.
- Faça a divisão treino/teste, especificando que 20% dos dados devem ser usados como conjunto de teste.
- Treine um modelo de regressão logística.
- Imprima a acurácia do modelo nos dados de treino e nos dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required packages
from sklearn.linear_model import LogisticRegression
____
# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)
# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)
# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))