1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习特征工程

Connected

道练习

对数变换

在前面的练习中,您对数据做了线性缩放,这不会改变数据的形状。如果您的数据服从(或接近服从)正态分布,这种方法很有效,而许多机器学习模型都假设如此。有时您会遇到接近正态的变量,例如一组人群的身高或体重。然而,很多真实世界中的变量并不符合这种模式,例如工资或人群的年龄。在本练习中,您将对 so_numeric_df 数据表中的 ConvertedSalary 列进行对数变换,因为该列有大量数据集中在较小的数值附近,但同时也包含非常高的数值。这类分布通常被称为具有长右尾。

说明

100 XP
  • 从 sklearn 的 preprocessing 模块导入 PowerTransformer。
  • 将 PowerTransformer() 实例化为 pow_trans。
  • 在 so_numeric_df 的 ConvertedSalary 列上拟合 PowerTransformer。
  • 使用刚刚拟合好的变换器对同一列进行变换。