1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 ETL과 ELT

Connected

연습 문제

Postgres 데이터베이스에 로드된 데이터 검증하기

이 연습 문제에서는 처음부터 끝까지 데이터 파이프라인을 직접 만들어 보겠습니다. 이 파이프라인은 JSON 파일에서 학교 시험 점수를 추출하고, 점수가 누락된 행을 삭제하도록 데이터를 변환합니다. 여기에 더해, 각 학교는 총점 기준으로所在 도시별 순위를 매깁니다. 마지막으로, 변환된 데이터셋을 Postgres 데이터베이스에 저장합니다.

빠르게 시작할 수 있도록 extract()와 transform() 함수는 아래와 같이 이미 작성되어 사용 중입니다. 또한 pandas는 pd로 임포트되어 있습니다. 화이팅입니다!

# 시험 점수를 추출하고 정리합니다.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

지침 1/2

undefined XP
    1
    2
  • load() 함수를 업데이트해 clean_data DataFrame을 schools 데이터베이스의 scores_by_city 테이블에 기록하세요.
  • scores_by_city 테이블에 데이터가 이미 있다면, 업데이트된 데이터로 교체되도록 하세요.