1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 ETL과 ELT

Connected

연습 문제

"체크포인트"에서 데이터 파이프라인 검증하기

이 연습 문제에서는 CSV 파일에서 세금 데이터를 추출하고, 새 열을 만들고, 평균 과세 소득을 기준으로 행을 필터링한 뒤, 데이터를 parquet 파일로 저장하는 데이터 파이프라인을 다룹니다.

pandas는 pd로 로드되어 있으며, extract(), transform(), load() 함수가 이미 정의되어 있습니다. 이 함수들을 사용해 실행 과정의 여러 체크포인트에서 데이터 파이프라인을 검증해 보세요.

지침 1/3

undefined XP
    1
    2
    3
  • raw_tax_data와 clean_tax_data DataFrame의 shape을 출력하고, 차원이 어떻게 다른지 살펴보세요.