Recensioni di prodotti con regolarizzazione
In questo esercizio lavorerai ancora con il dataset reviews di recensioni di prodotti Amazon. Un vettore di etichette y contiene il sentiment: 1 se positivo e 0 altrimenti. La matrice X contiene tutte le feature numeriche create con un approccio BOW.
Dovrai addestrare due modelli di regressione logistica con diversi livelli di regolarizzazione e confrontare le loro performance sui dati di test. Ricorda che la regolarizzazione è un modo per controllare la complessità del modello. Più un modello è regolarizzato, meno è flessibile ma meglio riesce a generalizzare. I modelli con un livello di regolarizzazione più alto sono spesso meno accurati di quelli non regolarizzati.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Suddividi i dati in un set di training e uno di test.
- Addestra una regressione logistica con parametro di regolarizzazione
1000. Addestra una seconda regressione logistica con parametro di regolarizzazione pari a0.001. - Stampa le accuracy di entrambi i modelli sul set di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)
# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)
# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))