1. Learn
  2. /
  3. 课程
  4. /
  5. Python 金融机器学习

Connected

道练习

相关性

在构建机器学习模型之前检查相关性很有用,因为可以看到哪些特征与目标的相关性最强。常用的是皮尔逊相关系数,它只能捕捉线性关系。一般会假设数据服从正态分布,我们可以通过直方图直观观察。高度相关的变量其皮尔逊相关系数接近 1(正相关)或 -1(负相关)。接近 0 表示两个变量不存在线性相关。

如果我们对过去价格变动和未来价格变动使用相同的时间窗口,就能判断股票价格是均值回归(来回波动)还是趋势跟随(最近上涨则继续上涨)。

说明

100 XP

使用 lng_df DataFrame 及其 Adj_Close:

  • 使用 pandas 的 .shift(-5) 创建 5 天后的未来价格(命名为 5d_future_close)。
  • 对 5d_future_close 和 Adj_Close 使用 pct_change(5),分别创建未来 5 天的百分比价格变化(5d_close_future_pct)和当前 5 天的百分比价格变化(5d_close_pct)。
  • 在 lng_df 上使用 .corr() 检查这两个 5 天百分比价格变化列之间的相关性。
  • 使用 plt.scatter() 绘制 5d_close_pct 与 5d_close_future_pct 的散点图。