Tworzenie cech treningowych i testowych

Zanim dopasujemy nasz model liniowy, dodamy stałą do cech – dzięki temu model będzie miał wyraz wolny.

Chcemy też podzielić dane na zbiór treningowy i testowy. Pozwoli nam to dopasować model do zbioru treningowego i ocenić jego wydajność na zbiorze testowym. Zawsze warto sprawdzać wyniki na danych, których model wcześniej nie widział – w ten sposób upewniamy się, że model nie jest przetrenowany, czyli że nie zapamiętał wzorców ze zbioru treningowego zbyt dosłownie.

W przypadku szeregów czasowych zwykle korzystamy z najstarszych danych jako zbioru treningowego, a z najnowszych – jako testowego. Dzięki temu możemy ocenić działanie modelu na najświeższych danych, co lepiej odzwierciedla realne prognozy na danych, których jeszcze nie widzieliśmy.

Zaimportuj bibliotekę statsmodels.api z aliasem sm.
Dodaj stałą do zmiennej features, korzystając z funkcji .add_constant() dostępnej w statsmodels.
Ustaw train_size jako 85% łącznej liczby punktów danych (liczby wierszy), używając właściwości .shape[0] zmiennej features lub targets.
Podziel linear_features i targets na zbiory treningowy i testowy, używając train_size oraz indeksowania w Pythonie (np. [start:stop]).

演習

Tworzenie cech treningowych i testowych

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習