1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

可視化を使う:lmplot

線形モデルのプロットを作成すると、各変数が従属変数と関係しているかを可視化できます。関係があれば、分析に含める有力な候補です。関係がない場合でも、捨てるべきという意味ではなく、使用できるように前処理やデータ整形が必要になる可能性がある、ということです。

seaborn はエイリアス sns でワークスペースに読み込まれています。

指示

100 XP
  • 読み込まれているデータセット df から、select() を使って 'SALESCLOSEPRICE' と 'LIVINGAREA' の列だけに絞り込みます。
  • sample() を使ってデータフレームの 50% をサンプルし、置換なしで、乱数シードを 42 に設定します。
  • Spark の DataFrame を toPandas() で pandas.DataFrame() に変換します。
  • 従属変数に 'SALESCLOSEPRICE'、独立変数に 'LIVINGAREA' を用いて、seaborn の lmplot() で線形モデルのプロットを作成します。