Entrenar un clasificador de spam

Los datos SMS ya están preparados para construir un clasificador. Concretamente, esto es lo que has hecho:

eliminar números y signos de puntuación
divide los mensajes en palabras (o "tokens")
eliminar palabras vacías
aplicó el truco del hashing y
convertido a una representación TF-IDF.

A continuación, tendrás que dividir los datos TF-IDF en conjuntos de entrenamiento y de prueba. A continuación, utilizarás los datos de entrenamiento para ajustar un modelo de Regresión Logística y, por último, evaluarás el rendimiento de ese modelo en los datos de prueba.

Los datos están almacenados en sms y LogisticRegression se ha importado para ti.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

Divide los datos en conjuntos de entrenamiento y de prueba en una proporción de 4:1. Establece la semilla de números aleatorios en 13 para garantizar la repetibilidad.
Crea un objeto LogisticRegression y ajústalo a los datos de entrenamiento.
Genera predicciones sobre los datos de prueba.
Utiliza las predicciones para formar una matriz de confusión.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)

# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)

# Make predictions on the testing data
prediction = logistic.____(____)

# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()

Editar y ejecutar código