1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

演習

결측치 대체(Imputing Missing Data)

결측치는 흔히 발생해요. 데이터가 완전히 무작위로 누락되었다고 가정하면, 현재 보유한 데이터가 모집단을 잘 대표한다고 보는 셈이에요. 결측값이 몇 개만 있다면 제거할 수도 있고, 평균이나 중앙값으로 대체할 수도 있어요. 이번 연습에서는 현재 가격 기준 시장에 머문 일수인 'PDOM'을 살펴보겠습니다.

指示

100 XP
  • where(), isNull(), count()를 사용해 'PDOM' 열의 결측값 개수를 구하세요.
  • 집계 함수 mean()으로 'PDOM'의 평균값을 계산하세요.
  • fillna()를 사용해 값은 'PDOM' 평균값으로 설정하고, subset 매개변수로 열 'PDOM'에만 적용하세요.