1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

日付の計算

この例では、データの頻度が正しいかを確認します。Mortgage データセットは週次データの想定ですが、実際にそうか、レポート日をラグさせてから日付の差分を取って確かめましょう。

ラグ特徴量を作るには window() を作成する必要があることを思い出してください。window() は、あるレコードのグループに対する計算結果に基づいて各レコードに値を返すためのものです。ここでは、ひとつ前の期間の住宅ローン金利を参照します。

指示

100 XP
  • to_date() を使って mort_df['DATE'] を日付型にキャストします。
  • Window() 関数でウィンドウを作成し、orderBy() を使って mort_df[DATE] で並べ替えます。
  • withColumn() で新しい列 DATE-1 を作成し、lag() で DATE 列をラグさせ、over(w) でウィンドウを適用します。
  • datediff() を使って DATE と DATE-1 の差分を計算し、列名を Days_Between_Report とします。