Wczytywanie danych spam i nie-spam

Regresja logistyczna to popularna metoda przewidywania odpowiedzi kategorialnej. Jednym z jej najczęstszych zastosowań jest klasyfikacja wiadomości e-mail jako spam. W tym trzyczęściowym ćwiczeniu zbudujesz klasyfikator spamu przy użyciu regresji logistycznej i Spark MLlib. Oto krótki przegląd kroków:

Utwórz RDD ciągów znaków reprezentujących wiadomości e-mail.
Zastosuj algorytmy ekstrakcji cech z MLlib, aby przekształcić tekst w RDD wektorów.
Wywołaj algorytm klasyfikacji na RDD wektorów, aby uzyskać obiekt modelu do klasyfikacji nowych punktów.
Oceń model na zbiorze testowym, korzystając z jednej z funkcji ewaluacyjnych MLlib.

W pierwszej części ćwiczenia wczytasz pliki ze spamem i z wiadomościami „ham" (nie-spam) do RDD, podzielisz wiadomości na poszczególne słowa i sprawdzisz pierwszy element każdego z RDD.

Pamiętaj, że w swoim środowisku masz dostępny SparkContext sc. Dostępne są też zmienne: file_path_spam (ścieżka do pliku ze spamem) oraz file_path_non_spam (ścieżka do pliku z wiadomościami nie-spam).

Utwórz dwa RDD – jedno dla wiadomości „spam" i jedno dla „nie-spam (ham)".
Podziel każdą wiadomość w RDD „spam" i „nie-spam" na słowa.
Wyświetl pierwszy element w podzielonym RDD dla „spam" i „nie-spam".

ćwiczenie

Wczytywanie danych spam i nie-spam

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie