1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 ETL과 ELT

Connected

연습 문제

fixture로 데이터 파이프라인 단위 테스트하기

지난 영상에서 단위 테스트가 데이터 파이프라인에 대한 신뢰를 높이고, 개발 전반에서 버그를 잡는 데도 도움이 된다는 것을 배웠습니다. 이번 연습 문제에서는 pytest 라이브러리와 assert를 사용해 fixture와 단위 테스트를 모두 작성해 보겠습니다.

단위 테스트를 작성하게 될 transform 함수는 참고용으로 아래에 제시되어 있습니다. pandas는 pd로 임포트되어 있으며, pytest() 라이브러리도 로드되어 사용할 준비가 되어 있습니다.

def transform(raw_data):
    raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
    raw_data.set_index("industry_name", inplace=True)
    return raw_data

지침 1/2

undefined XP
    1
    2
  • clean_tax_data라는 이름의 pytest fixture를 만드세요.
  • transform() 함수를 raw_data 데이터셋에 적용하고, 결과를 clean_data 변수에 저장한 뒤 반환하세요.