Construir e avaliar um modelo: dados de avaliações de produtos
Neste exercício, você vai construir uma regressão logística usando o conjunto de dados reviews, que contém avaliações de clientes de produtos da Amazon. O array y contém o sentimento: 1 se for positivo e 0 caso contrário. O array X contém todas as variáveis numéricas criadas usando a abordagem BOW. Fique à vontade para explorá-las no IPython Shell.
Sua tarefa é construir um modelo de regressão logística e calcular a acurácia e a matriz de confusão usando o conjunto de teste.
As funções de regressão logística e de divisão treino/teste já foram importadas para você.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe as funções de acurácia (accuracy score) e matriz de confusão.
- Divida os dados em treino e teste, usando 30% como conjunto de teste e defina a semente aleatória como
42. - Treine um modelo de regressão logística.
- Mostre a acurácia e a matriz de confusão usando os dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the accuracy and confusion matrix
____
# Split the data into training and testing
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.3, ____=42)
# Build a logistic regression
log_reg = ____._____
# Predict the labels
y_predict = log_reg.predict(X_test)
# Print the performance metrics
print('Accuracy score of test data: ', ____(____, ____))
print('Confusion matrix of test data: \n', ____(____, ____)/len(y_test))