Bir DataFrame Kullanma
Önceki egzersizde, bir görevi nasıl parçalara ayırıp düşük seviyeli Python multiprocessing.Pool API’sini kullanarak birden fazla işlem biriminde hesaplama yapabileceğini gördün.
Bunu düşük seviyede anlaman önemli, ama pratikte bu tür API’leri neredeyse hiç kullanmazsın. Birden çok grup üzerinde apply işlemini paralelleştirmenin daha kullanışlı bir yolu, örneğin dask çatısını ve onun pandas DataFrame soyutlamasını kullanmaktır.
pandas DataFrame’i olan athlete_events çalışma alanında mevcut.
Bu egzersiz
Data Engineering'e Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)