1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

演習

데이터 로드 검증

매달 새로운 파일을 받는다고 가정해 볼게요. 특정한 레코드 수와 열 수를 기대하고 있죠. 이 연습에서는 로드된 파일을 검증하는 함수를 만들어 보겠습니다.

指示

100 XP
  • 데이터 검증 함수 check_load()를 만드세요. 매개변수는 데이터프레임 df, 레코드 수 num_records, 열 수 num_columns입니다.
  • num_records를 사용해 입력 데이터프레임 df의 count() 결과와 같은지 확인하는 검사를 만드세요.
  • 입력 데이터프레임의 열 수를 columns에 len()을 적용해 구하고, 이를 num_columns와 비교하세요.
  • 두 검사가 모두 True이면 Validation Passed를 출력하세요.