1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Python에서 Dask로 병렬 프로그래밍

Connected

Exercise

Parquet에서 Dask DataFrame 읽기

1장에서 2005-2020년의 스포티파이 상위 히트곡을 찾기 위해 여러 파일로 나뉜 데이터를 분석했어요. 그때는 dask.delayed() 함수와 반복문을 사용했죠. 이제 Dask DataFrame을 사용하면 이 분석이 얼마나 쉬워지는지 살펴보겠습니다.

dask.dataframe은 dd로 임포트되어 있어요.

Instrukcje

100 XP
  • "data/spotify_parquet"에 있는 Parquet 데이터 폴더를 로드하세요.
  • DataFrame의 .nlargest() 메서드를 사용해 'popularity' 기준 상위 10개 곡을 찾으세요.
  • 지연 객체를 계산해 pandas DataFrame으로 변환하세요.