1. Lära sig
  2. /
  3. Courses
  4. /
  5. PySpark로 데이터 정제하기

Connected

exercise

지연 처리(lazy processing) 사용하기

지연 처리에서는 실제 데이터 양과 상관없이 보통 비슷한 시간 내에 반환돼요. 이는 Spark가 액션이 요청되기 전까지 어떤 변환도 수행하지 않기 때문이에요.

이번 연습에서는 데이터 프레임(aa_dfw_df)을 정의하고 몇 가지 변환을 추가해 보겠습니다. 변환을 정의할 때와 실제로 데이터를 조회할 때 완료에 걸리는 시간을 비교해 보세요. 차이가 짧게 느껴질 수 있지만 눈에 띌 거예요. 데이터가 많은 전체 Spark 클러스터에서 작업할 때는 그 차이가 더욱 뚜렷해집니다.

Instruktioner

100 XP
  • 데이터 프레임을 불러오세요.
  • Destination Airport 열에 F.lower() 변환을 추가하세요.
  • 이 액션이 완료되는 시간 차이를 확인할 수 있도록 데이터 프레임을 보여 주세요.