Formation d'un classificateur de spam

Les données SMS sont maintenant préparées pour la construction d'un classificateur. Plus précisément, c'est ce que vous avez fait :

suppression des chiffres et de la ponctuation
diviser les messages en mots (ou "tokens")
suppression des mots vides
a appliqué l'astuce du hachage et
converti en une représentation TF-IDF.

Vous devez ensuite diviser les données TF-IDF en ensembles de formation et de test. Vous utiliserez ensuite les données d'apprentissage pour ajuster un modèle de régression logistique et, enfin, vous évaluerez les performances de ce modèle sur les données de test.

Les données sont stockées dans sms et LogisticRegression a été importé pour vous.

Cet exercice fait partie du cours

<cours>Apprentissage automatique avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Divisez les données en ensembles de formation et de test dans un rapport de 4:1. Réglez la graine du nombre aléatoire sur 13 pour garantir la répétabilité.
Créez un objet LogisticRegression et adaptez-le aux données d'apprentissage.
Générer des prédictions sur les données de test.
Utilisez les prédictions pour former une matrice de confusion.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)

# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)

# Make predictions on the testing data
prediction = logistic.____(____)

# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()

Modifier et exécuter le code