Crea y evalúa un modelo: reseñas de películas
En este ejercicio, vas a crear un modelo de regresión logística usando el conjunto de datos movies. La puntuación está en la columna label y vale 1 cuando la reseña es positiva y 0 cuando es negativa. La reseña en texto se ha transformado, usando BOW, en columnas numéricas.
Ya has creado un clasificador, pero lo evaluaste usando los mismos datos empleados en el entrenamiento. Asegúrate de evaluar ahora el modelo con un conjunto de prueba no visto. ¿Cómo cambia el rendimiento del modelo cuando se evalúa en el conjunto de prueba?
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Importa la función necesaria para hacer el train/test split.
- Realiza el train/test split indicando que el 20% de los datos se use como conjunto de prueba.
- Entrena un modelo de regresión logística.
- Imprime la exactitud del modelo en los datos de entrenamiento y en los datos de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the required packages
from sklearn.linear_model import LogisticRegression
____
# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)
# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)
# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))