Trenowanie klasyfikatora spamu

Dane SMS są już gotowe do budowy klasyfikatora. Oto, co zostało zrobione:

usunięto cyfry i znaki interpunkcyjne
podzielono wiadomości na słowa (czyli „tokeny")
usunięto stop słowa
zastosowano technikę hashowania oraz
przekształcono dane do reprezentacji TF-IDF.

Teraz podziel dane TF-IDF na zbiór treningowy i testowy. Następnie dopasuj model regresji logistycznej do danych treningowych i oceń jego wydajność na danych testowych.

Dane są przechowywane w sms, a LogisticRegression został już zaimportowany.

Podziel dane na zbiór treningowy i testowy w proporcji 4:1. Ustaw ziarno generatora liczb losowych na 13, aby zapewnić powtarzalność wyników.
Utwórz obiekt LogisticRegression i dopasuj go do danych treningowych.
Wygeneruj predykcje na danych testowych.
Użyj predykcji do stworzenia macierzy pomyłek.

ćwiczenie

Trenowanie klasyfikatora spamu

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie