1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Trénování klasifikátoru spamu

SMS data jsou teď připravená pro sestavení klasifikátoru. Konkrétně jsi provedl/a tyto kroky:

  • odstranění čísel a interpunkce
  • rozdělení zpráv na slova (tzv. "tokeny")
  • odstranění stop slov
  • aplikování hašovacího triku
  • převod na TF-IDF reprezentaci.

Nyní je potřeba rozdělit TF-IDF data na trénovací a testovací sadu. Pak pomocí trénovacích dat natrénuješ model Logistické regrese a nakonec vyhodnotíš jeho výkon na testovacích datech.

Data jsou uložena v proměnné sms a LogisticRegression je už importován.

Pokyny

100 XP
  • Rozděl data na trénovací a testovací sadu v poměru 4:1. Nastav seed náhodného generátoru na hodnotu 13, aby byly výsledky opakovatelné.
  • Vytvoř objekt LogisticRegression a natrénuj ho na trénovacích datech.
  • Vygeneruj predikce na testovacích datech.
  • Použij predikce k sestavení matice záměn.