1. Nauka
  2. /
  3. Kursy
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

ćwiczenie

可視化を使う:distplot

目的変数の分布を把握することはとても重要で、選ぶモデルや前処理にも影響します。手軽な方法はプロットで確認することですが、PySparkには標準のプロット機能がないため、正しく動かすにはいくつかの中間ステップが必要です。この演習では 'LISTPRICE' 変数を可視化し、さらに歪度(skewness)を計算して分布についての理解を深めます。

matplotlib.pyplot と seaborn はそれぞれ plt と sns のエイリアスでインポート済みです。

Instrukcje

100 XP
  • 置換なし、乱数シードを 42 に設定して、sample() を用いてデータフレーム df を 50% 抽出します。
  • Spark DataFrame を toPandas() で pandas.DataFrame() に変換します。
  • seaborn の distplot() メソッドで分布図を描画します。
  • pyspark.sql.functions から skewness() をインポートし、agg() メソッドで 'LISTPRICE' 列の集約に対して計算します。計算結果を評価するために collect() するのを忘れないでください。