Avaliações de produtos com regularização
Neste exercício, você vai trabalhar mais uma vez com o conjunto de dados reviews de avaliações de produtos da Amazon. Um vetor de rótulos y contém o sentimento: 1 para positivo e 0 caso contrário. A matriz X contém todos os recursos numéricos criados usando uma abordagem BOW.
Você vai treinar dois modelos de regressão logística com diferentes níveis de regularização e comparar o desempenho deles nos dados de teste. Lembre-se de que a regularização é uma forma de controlar a complexidade do modelo. Quanto mais regularizado o modelo, menos flexível ele é, mas melhor tende a generalizar. Modelos com nível mais alto de regularização geralmente são menos precisos do que aqueles sem regularização.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Divida os dados em conjuntos de treino e teste.
- Treine uma regressão logística com parâmetro de regularização
1000. Treine uma segunda regressão logística com parâmetro de regularização igual a0.001. - Imprima as pontuações de acurácia de ambos os modelos no conjunto de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)
# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)
# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))