파일로 쓰기

영상에서 보셨듯이, 파일은 종종 Redshift 같은 MPP 데이터베이스에 적재되어 분석에 활용돼요.

일반적인 워크플로는 데이터를 컬럼 지향 데이터 파일로 저장한 뒤, 이를 스토리지 시스템에 업로드하고, 거기에서 데이터 웨어하우스로 복사하는 방식이에요. Amazon Redshift의 경우 스토리지 시스템으로 S3를 사용할 수 있어요.

첫 단계는 파일을 올바른 포맷으로 저장하는 것입니다. 이번 연습에서는 Apache Parquet 파일 포맷을 사용해 보겠습니다.