1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

결측 비율 계산하기

자동화는 데이터 과학의 미래예요. 데이터 준비 작업 일부를 자동화할 수 있으면 큰 이점을 얻습니다. 이번 연습에서는 결측치가 특정 임계값을 넘는 열을 자동으로 삭제해 보겠습니다.

지침

100 XP
  • df 데이터프레임과 0과 1 사이의 실수 threshold를 매개변수로 받는 함수 column_dropper()를 정의하세요.
  • where(), isNull(), count()를 사용해 결측값의 비율을 계산하세요.
  • 결측 비율이 임계값보다 큰지 확인하고, 크다면 drop()을 사용해 해당 열을 삭제하세요.
  • 임계값을 0.6으로 설정해 df에 대해 column_dropper()를 실행하세요.