Recensioni di prodotti con regolarizzazione

In questo esercizio lavorerai ancora con il dataset reviews di recensioni di prodotti Amazon. Un vettore di etichette y contiene il sentiment: 1 se positivo e 0 altrimenti. La matrice X contiene tutte le feature numeriche create con un approccio BOW.

Dovrai addestrare due modelli di regressione logistica con diversi livelli di regolarizzazione e confrontare le loro performance sui dati di test. Ricorda che la regolarizzazione è un modo per controllare la complessità del modello. Più un modello è regolarizzato, meno è flessibile ma meglio riesce a generalizzare. I modelli con un livello di regolarizzazione più alto sono spesso meno accurati di quelli non regolarizzati.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Suddividi i dati in un set di training e uno di test.
Addestra una regressione logistica con parametro di regolarizzazione 1000. Addestra una seconda regressione logistica con parametro di regolarizzazione pari a 0.001.
Stampa le accuracy di entrambi i modelli sul set di test.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)

# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)

# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))

Modifica ed esegui il codice