1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

時間コンポーネント

特徴量作成のために時間コンポーネントを扱えることは重要ですが、データをさらに探索・理解するためにも活用できます。この演習では、家がどの曜日に掲載されるかにパターンがあるかを確認します。PySpark の週は日曜日を1、土曜日を7としてカウントする点にご注意ください。

指示

100 XP
  • pyspark.sql.functions から to_date() と dayofweek() をインポートします。
  • to_date() 関数で LISTDATE を Spark の日付型に変換し、withColumn() を使って同じ列名で上書き保存します。
  • LISTDATE と dayofweek() を用いて新しい列を作成し、withColumn() で List_Day_of_Week という列名で保存します。
  • データフレームを半分サンプリングし、toPandas() で pandas データフレームに変換して、seaborn の countplot() を使い、x = List_Day_of_Week として pandas データフレームの List_Day_of_Week 列の件数をプロットします。