Trénování klasifikátoru spamu

SMS data jsou teď připravená pro sestavení klasifikátoru. Konkrétně jsi provedl/a tyto kroky:

odstranění čísel a interpunkce
rozdělení zpráv na slova (tzv. "tokeny")
odstranění stop slov
aplikování hašovacího triku
převod na TF-IDF reprezentaci.

Nyní je potřeba rozdělit TF-IDF data na trénovací a testovací sadu. Pak pomocí trénovacích dat natrénuješ model Logistické regrese a nakonec vyhodnotíš jeho výkon na testovacích datech.

Data jsou uložena v proměnné sms a LogisticRegression je už importován.

Rozděl data na trénovací a testovací sadu v poměru 4:1. Nastav seed náhodného generátoru na hodnotu 13, aby byly výsledky opakovatelné.
Vytvoř objekt LogisticRegression a natrénuj ho na trénovacích datech.
Vygeneruj predikce na testovacích datech.
Použij predikce k sestavení matice záměn.

cvičení

Trénování klasifikátoru spamu

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení