ComenzarEmpieza gratis

Entrenamiento de un clasificador de spam

Los datos SMS ya están preparados para crear un clasificador. En concreto, esto es lo que has hecho:

  • Se han eliminado los números y los signos de puntuación.
  • dividir los mensajes en palabras (o «tokens»)
  • palabras vacías eliminadas
  • aplicaste el truco del hash y
  • convertido a una representación TF-IDF.

A continuación, tendrás que dividir los datos TF-IDF en conjuntos de entrenamiento y prueba. A continuación, utilizarás los datos de entrenamiento para ajustar un modelo de regresión logística y, finalmente, evaluarás el rendimiento de ese modelo con los datos de prueba.

Los datos se almacenan en sms y LogisticRegression se ha importado para ti.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Divide los datos en conjuntos de entrenamiento y prueba en una proporción de 4:1. Establece el número aleatorio inicial en 13 para garantizar la repetibilidad.
  • Crea un objeto « LogisticRegression » y ajústalo a los datos de entrenamiento.
  • Genera predicciones sobre los datos de prueba.
  • Utiliza las predicciones para crear una matriz de confusión.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)

# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)

# Make predictions on the testing data
prediction = logistic.____(____)

# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()
Editar y ejecutar código