1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark로 데이터 정제하기

Connected

演習

파일 가져오기 성능

여러분은 큰 데이터셋을 Spark DataFrame으로 가져오라는 요청을 받았어요. 파일을 분할해서 가져올 때와의 속도 차이를 테스트해 보려고 합니다.

사용할 수 있는 파일은 두 종류예요. 하나는 departures_full.txt.gz, 다른 하나는 departures_xxx.txt.gz이고 여기서 xxx는 000 - 013입니다. 각 파일에는 동일한 수의 행이 균등하게 나뉘어 있습니다.

指示

100 XP
  • departures_full.txt.gz 파일과 departures_xxx.txt.gz 파일을 각각 별도의 DataFrame으로 가져오세요.
  • 각 DataFrame에 대해 count를 실행하고 실행 시간을 비교하세요.