1. 학습
  2. /
  3. 강의
  4. /
  5. 데이터 엔지니어링 입문

Connected

연습 문제

파일로 쓰기

영상에서 보셨듯이, 파일은 종종 Redshift 같은 MPP 데이터베이스에 적재되어 분석에 활용돼요.

일반적인 워크플로는 데이터를 컬럼 지향 데이터 파일로 저장한 뒤, 이를 스토리지 시스템에 업로드하고, 거기에서 데이터 웨어하우스로 복사하는 방식이에요. Amazon Redshift의 경우 스토리지 시스템으로 S3를 사용할 수 있어요.

첫 단계는 파일을 올바른 포맷으로 저장하는 것입니다. 이번 연습에서는 Apache Parquet 파일 포맷을 사용해 보겠습니다.

작업 공간에는 PySpark DataFrame film_sdf와 pandas DataFrame film_pdf가 준비되어 있어요.

지침

100 XP
  • pandas DataFrame film_pdf를 "films_pdf.parquet"라는 parquet 파일로 저장하세요.
  • PySpark DataFrame film_sdf를 "films_sdf.parquet"라는 parquet 파일로 저장하세요.