1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Trenowanie klasyfikatora spamu

Dane SMS są już gotowe do budowy klasyfikatora. Oto, co zostało zrobione:

  • usunięto cyfry i znaki interpunkcyjne
  • podzielono wiadomości na słowa (czyli „tokeny")
  • usunięto stop słowa
  • zastosowano technikę hashowania oraz
  • przekształcono dane do reprezentacji TF-IDF.

Teraz podziel dane TF-IDF na zbiór treningowy i testowy. Następnie dopasuj model regresji logistycznej do danych treningowych i oceń jego wydajność na danych testowych.

Dane są przechowywane w sms, a LogisticRegression został już zaimportowany.

Instrukcje

100 XP
  • Podziel dane na zbiór treningowy i testowy w proporcji 4:1. Ustaw ziarno generatora liczb losowych na 13, aby zapewnić powtarzalność wyników.
  • Utwórz obiekt LogisticRegression i dopasuj go do danych treningowych.
  • Wygeneruj predykcje na danych testowych.
  • Użyj predykcji do stworzenia macierzy pomyłek.