1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

カスタム割合スケーリング

スライドでは、データを0から1の範囲にスケールする方法を紹介しました。モデリングや表示の目的によっては、別のスケールにしたい場合もあります。

指示

100 XP
  • DAYSONMARKET の最大値と最小値を計算し、変数 max_days と min_days に代入します。agg() の結果には collect() を使うのを忘れないでください。
  • withColumn() を使って、DAYSONMARKET に基づく新しい列 'percentagescaleddays' を作成します。
  • percentage_scaled_days は0から100の整数の列にします。整数化には round() を使ってください。
  • 新しい列 percentage_scaled_days の max() と min() を出力してください。