Crea e valuta un modello: recensioni di film

In questo esercizio costruirai un modello di regressione logistica usando l'insieme di dati movies. Il punteggio è salvato nella colonna label ed è 1 quando la recensione è positiva e 0 quando è negativa. La recensione testuale è stata trasformata, usando BOW, in colonne numeriche.

Hai già costruito un classificatore ma lo hai valutato usando gli stessi dati impiegati nella fase di training. Assicurati ora di valutare il modello usando un insieme di test mai visto. Come cambia la performance del modello quando viene valutato sul test set?

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Importa la funzione necessaria per il train/test split.
Esegui il train/test split, specificando che il 20% dei dati deve essere usato come test set.
Allena un modello di regressione logistica.
Stampa l'accuracy del modello sui dati di training e su quelli di test.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the required packages
from sklearn.linear_model import LogisticRegression
____

# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)

# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)

# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))

Modifica ed esegui il codice