1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Budowanie modelu regresji logistycznej

Wcześniej zbudowałeś/zbudowałaś model drzewa decyzyjnego na danych dotyczących lotów. Teraz czas na stworzenie modelu regresji logistycznej na tych samych danych.

Celem jest przewidzenie, czy dany lot z dużym prawdopodobieństwem opóźni się o co najmniej 15 minut (etykieta 1), czy nie (etykieta 0).

Chociaż masz do dyspozycji wiele zmiennych predykcyjnych, na razie skorzystasz tylko z kolumn mon, depart i duration. Są to cechy numeryczne, które można bezpośrednio wykorzystać w modelu regresji logistycznej. Zanim będzie można dodać cechy kategoryczne, trzeba będzie wykonać kilka dodatkowych kroków. Szczegóły już wkrótce!

Dane zostały podzielone na zbiory treningowy i testowy, dostępne jako flights_train i flights_test.

Instrukcje

100 XP
  • Zaimportuj klasę służącą do tworzenia klasyfikatora regresji logistycznej.
  • Utwórz obiekt klasyfikatora i wytrenuj go na danych treningowych.
  • Wygeneruj predykcje dla danych testowych i utwórz macierz pomyłek.