1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 데이터 정제하기

Connected

연습 문제

빠른 파이프라인

더 복잡한 데이터를 파싱하기 전에, 관리자님이 기본 단계를 포함한 간단한 파이프라인 예시를 보고 싶어 하십니다. 이 예시에서는 데이터 파일을 읽어 들이고, 몇 개의 행을 필터링하고, ID 열을 추가한 다음, JSON 데이터로 저장해 보겠습니다.

spark 컨텍스트가 정의되어 있으며, 관례대로 pyspark.sql.functions 라이브러리는 F로 별칭을 붙여 두었습니다.

지침

100 XP
  • 파일 2015-departures.csv.gz를 DataFrame으로 가져오세요. 헤더는 이미 정의되어 있습니다.
  • DataFrame을 0분을 초과하는 비행만 포함하도록 필터링하세요. 열 이름이 아니라 열의 인덱스를 사용하세요 (.printSchema()로 열 이름/순서를 확인할 수 있음).
  • ID 열을 추가하세요.
  • 파일을 output.json이라는 JSON 문서로 저장하세요.