1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe w finansach z Pythonem

Connected

ćwiczenie

Eksploracja danych (EDA)

Zacznijmy od eksploracji danych. Na początku każdego projektu uczenia maszynowego (ML) warto przeprowadzić eksploracyjną analizę danych (EDA), aby dobrze poznać zbiór, z którym pracujemy. Obejmuje to m.in.:

  • wykresy surowych danych
  • histogramy
  • i wiele innych…

Zazwyczaj zaczyna się od wykresów surowych danych i histogramów – pozwalają one zrozumieć rozkłady danych. Jeśli dane mają rozkład normalny, można stosować metody statystyki parametrycznej.

Do pandas DataFrames wczytano dwa zbiory danych: lng_df i spy_df (LNG i SPY). Przejrzyj je za pomocą .head(). Ceny zamknięcia, a z czasem także wolumen, posłużą jako dane wejściowe do algorytmów ML.

Uwaga: za każdym razem, gdy chcesz utworzyć nowy wykres, wywołaj plt.clf() lub f = plt.figure().

Instrukcje

100 XP
  • Wyświetl pierwsze 5 wierszy obu DataFrames (lng_df i spy_df) i zapoznaj się z ich zawartością.
  • Użyj biblioteki pandas, aby narysować wykresy surowych szeregów czasowych dla 'SPY' i 'LNG' z użyciem ceny zamknięcia po korekcie ('Adj_Close') – ustaw legend=True w .plot().
  • Użyj plt.show(), aby wyświetlić wykres szeregu czasowego (biblioteka matplotlib.pyplot została zaimportowana jako plt).
  • Użyj pandas i matplotlib, aby utworzyć histogram jednodniowej procentowej zmiany ceny zamknięcia po korekcie (użyj .pct_change()) dla SPY i LNG.