1. 학습
  2. /
  3. 강의
  4. /
  5. 데이터 엔지니어링 입문

Connected

연습 문제

DataFrame 사용하기

이전 연습 문제에서는 작업을 분할하고, 저수준의 Python multiprocessing.Pool API를 사용해 여러 처리 장치에서 계산을 수행하는 방법을 살펴봤습니다.

이런 저수준 개념을 이해하는 건 중요하지만, 실제로는 이런 종류의 API를 직접 쓸 일은 거의 없어요. 여러 그룹에 대해 apply를 병렬화하는 더 편리한 방법으로는, 예를 들어 dask 프레임워크와 그 안의 pandas DataFrame 추상화를 사용하는 것이 있습니다.

pandas DataFrame인 athlete_events가 작업 공간에 준비되어 있습니다.

지침 1/2

undefined XP
    1
    2
  • dd.from_pandas()를 사용해 athletes_events DataFrame을 4개 파티션으로 나누세요.

dd.frompandas()의 매개변수를 잊으셨다면 슬라이드를 다시 보시거나, 콘솔에서 help(dd.from_pandas)를 입력해 보세요!_