1. Nauka
  2. /
  3. Kursy
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

ćwiczenie

欠損率を計算する

データサイエンスの将来は自動化にあります。前処理の一部を自動化できるようになると大きな効果があります。この演習では、欠損が指定したしきい値を超える列を自動的に削除する処理を作ります。

Instrukcje

100 XP
  • df(DataFrame)と threshold(0〜1の浮動小数)を受け取る関数 column_dropper() を定義します。
  • where()、isNull()、count() を使って、欠損している値の割合を計算します。
  • 欠損の割合がしきい値より高いかを確認し、高ければ drop() で列を削除します。
  • しきい値を 0.6 に設定して、df に対して column_dropper() を実行します