Haszowanie cech i LabeledPoint

Po podzieleniu wiadomości e-mail na słowa nasze zbiory danych „spam" i „nie-spam" składają się z wiadomości jednowierszowych. Aby sklasyfikować te wiadomości, musimy przekształcić tekst w cechy.

W drugiej części ćwiczenia najpierw utworzysz instancję HashingTF(), która odwzoruje tekst na wektory 200 cech. Następnie dla każdej wiadomości ze zbiorów „spam" i „nie-spam" podzielisz ją na słowa i zmapujesz każde słowo na jedną cechę. To właśnie te cechy posłużą do określenia, czy dana wiadomość jest spamem, czy nie. Potem dodasz etykiety do cech: dla prawidłowej wiadomości etykieta wynosi 0 (czyli wiadomość nie jest spamem), a dla wiadomości będącej spamem – 1. Na koniec połączysz oba oetykietowane zbiory danych.

Pamiętaj, że w swoim środowisku masz dostępny SparkContext sc. Zmienne spam_words i non_spam_words są już dostępne w twoim środowisku.

Utwórz instancję HashingTF(), która odwzoruje tekst wiadomości e-mail na wektory 200 cech.
Podziel każdą wiadomość ze zbiorów „spam" i „nie-spam" na słowa i zmapuj każde słowo na jedną cechę.
Nadaj etykiety cechom: 1 dla spamu, 0 dla wiadomości nie będącej spamem.
Połącz próbki spamu i nie-spamu w jeden zbiór danych.

ćwiczenie

Haszowanie cech i LabeledPoint

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie