Logistic Regression, kategorik bir yanıtı tahmin etmek için popüler bir yöntemdir. Logistic Regression’ın en yaygın uygulamalarından biri mesaj veya e-posta spam sınıflandırmasıdır. Bu 3 aşamalı egzersizde, Spark MLlib kullanarak Logistic Regression ile bir e-posta spam sınıflandırıcısı oluşturacaksın. Bir spam sınıflandırıcısı oluşturmanın kısa adımları şöyle:

E-postaları temsil eden string’lerden bir RDD oluştur.
Metni, MLlib’in özellik çıkarımı algoritmalarını kullanarak vektörlerden oluşan bir RDD’ye dönüştür.
Yeni noktaları sınıflandırmak için vektör RDD’si üzerinde bir sınıflandırma algoritması çağır ve bir model nesnesi elde et.
MLlib’in değerlendirme işlevlerinden biriyle modeli bir test veri kümesi üzerinde değerlendir.

Egzersizin ilk kısmında, 'spam' ve 'ham' (spam olmayan) dosyalarını RDD’lere yükleyecek, e-postaları tek tek sözcüklere ayıracak ve her bir RDD’deki ilk elemana bakacaksın.

Unutma, çalışma alanında bir SparkContext sc mevcut. Ayrıca file_path_spam değişkeni ('spam' dosyasının yolu) ve file_path_non_spam ('spam olmayan' dosyanın yolu) da çalışma alanında hazır.

Kümeleme

Create Your Free Account