1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning for Finance in Python

Connected

Cvičení

Vytvoření trénovacích a testovacích příznaků

Než přistoupíme k trénování lineárního modelu, přidáme k příznakům konstantu – díky tomu bude mít model intercept.

Dále rozdělíme data na trénovací a testovací sadu. Model natrénujeme na trénovacích datech a jeho výkon ověříme na testovacích. Vždy je důležité hodnotit model na datech, která dosud neviděl – jinak riskujeme overfitting, tedy příliš přesné zapamatování vzorů v trénovacích datech.

U časových řad je zvykem používat nejstarší data jako trénovací sadu a nejnovější jako testovací. Díky tomu model hodnotíme na aktuálních datech, což realističtěji simuluje predikce na dosud neviděných datech.

Pokyny

100 XP
  • Importuj knihovnu statsmodels.api s aliasem sm.
  • Přidej konstantu k proměnné features pomocí funkce .add_constant() ze statsmodels.
  • Nastav train_size na 85 % celkového počtu datových bodů (počtu řádků) pomocí vlastnosti .shape[0] proměnné features nebo targets.
  • Rozděl linear_features a targets na trénovací a testovací sady pomocí train_size a indexování v Pythonu (např. [start:stop]).