1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

数値フィールドを条件付きでフィルタリングする

データの文脈を理解することは非常に重要です。ここでは、住宅が通常どの価格帯で売れているかを把握したいと考えています。平均から大きく外れた価格で売れた外れ値の物件は除外しましょう。平均と標準偏差を計算し、それらを使ってほぼ正規分布に近いフィールド log_SalesClosePrice をフィルタします。

指示

100 XP
  • pyspark.sql.functions から mean() と stddev() をインポートします。
  • インポートした関数を使って、agg() で 'log_SalesClosePrice' の平均と標準偏差を計算します。
  • mean_val ± stddev_val の3倍で上下限を作成します。
  • low_bound と hi_bound の両方を使って、'log_SalesClosePrice' に対する where() フィルタを作成します。