1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Trenowanie modelu regresji logistycznej

Po utworzeniu etykiet i cech dla danych możemy przystąpić do budowania modelu, który nauczy się na ich podstawie (trening). Jednak zanim zaczniesz trenować model, w tej ostatniej części ćwiczenia podzielisz dane na zbiór treningowy i testowy, uruchomisz model regresji logistycznej na danych treningowych, a następnie sprawdzisz jego dokładność.

Pamiętaj, że w przestrzeni roboczej masz dostęp do SparkContext sc oraz zmiennej samples.

Instrukcje

100 XP
  • Podziel połączone dane na zbiór treningowy i testowy w proporcji 80:20.
  • Wytrenuj model regresji logistycznej na zbiorze treningowym.
  • Na podstawie wytrenowanego modelu utwórz etykiety predykcji dla zbioru testowego.
  • Połącz etykiety ze zbioru testowego z etykietami predykcji, używając funkcji zip.
  • Oblicz dokładność wytrenowanego modelu na podstawie oryginalnych i przewidywanych etykiet, a następnie wyświetl wynik.