1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning for Finance in Python

Connected

Cvičení

Standardizace dat

Některé modely, jako K-nearest neighbors (KNN) a neuronové sítě, fungují lépe se škálovanými daty – proto naše data standardizujeme.

Také odstraníme nepodstatné proměnné (den v týdnu) na základě důležitosti příznaků, a to indexováním DataFrame příznaků pomocí .iloc[]. KNN využívá vzdálenosti k hledání podobných bodů pro predikce, takže příznaky s velkými hodnotami přebijí ty s malými. Škálování dat tento problém řeší.

Funkce scale() z knihovny sklearn data standardizuje – nastaví střední hodnotu na 0 a směrodatnou odchylku na 1. V ideálním případě bychom použili StandardScaler s fit_transform() na trénovacích datech a fit() na testovacích, ale zde jsme omezeni na 15 řádků kódu.

Po škálování dat ověříme, že vše proběhlo správně, vykreslením histogramů.

Pokyny

100 XP
  • Odstraň příznaky dne v týdnu z trénovacích a testovacích dat pomocí .iloc (den v týdnu tvoří poslední 4 příznaky).
  • Standardizuj train_features a test_features pomocí funkce scale() z knihovny sklearn; škálované příznaky ulož jako scaled_train_features a scaled_test_features.
  • Vykresli histogram 14denního klouzavého průměru RSI (indexovaného jako [:, 2]) z nešálovaných train_features do prvního podgrafu (ax[0]).
  • Vykresli histogram standardizovaného 14denního klouzavého průměru RSI do druhého podgrafu (ax[1]).