1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Haszowanie cech i LabeledPoint

Po podzieleniu wiadomości e-mail na słowa nasze zbiory danych „spam" i „nie-spam" składają się z wiadomości jednowierszowych. Aby sklasyfikować te wiadomości, musimy przekształcić tekst w cechy.

W drugiej części ćwiczenia najpierw utworzysz instancję HashingTF(), która odwzoruje tekst na wektory 200 cech. Następnie dla każdej wiadomości ze zbiorów „spam" i „nie-spam" podzielisz ją na słowa i zmapujesz każde słowo na jedną cechę. To właśnie te cechy posłużą do określenia, czy dana wiadomość jest spamem, czy nie. Potem dodasz etykiety do cech: dla prawidłowej wiadomości etykieta wynosi 0 (czyli wiadomość nie jest spamem), a dla wiadomości będącej spamem – 1. Na koniec połączysz oba oetykietowane zbiory danych.

Pamiętaj, że w swoim środowisku masz dostępny SparkContext sc. Zmienne spam_words i non_spam_words są już dostępne w twoim środowisku.

Instrukcje

100 XP
  • Utwórz instancję HashingTF(), która odwzoruje tekst wiadomości e-mail na wektory 200 cech.
  • Podziel każdą wiadomość ze zbiorów „spam" i „nie-spam" na słowa i zmapuj każde słowo na jedną cechę.
  • Nadaj etykiety cechom: 1 dla spamu, 0 dla wiadomości nie będącej spamem.
  • Połącz próbki spamu i nie-spamu w jeden zbiór danych.