Bir DataFrame Kullanma
Önceki egzersizde, bir görevi nasıl parçalara ayırıp düşük seviyeli Python multiprocessing.Pool API’sini kullanarak birden fazla işlem biriminde hesaplama yapabileceğini gördün.
Bunu düşük seviyede anlaman önemli, ama pratikte bu tür API’leri neredeyse hiç kullanmazsın. Birden çok grup üzerinde apply işlemini paralelleştirmenin daha kullanışlı bir yolu, örneğin dask çatısını ve onun pandas DataFrame soyutlamasını kullanmaktır.
pandas DataFrame’i olan athlete_events çalışma alanında mevcut.
Bu egzersiz, kursun bir parçasıdır
Data Engineering'e Giriş
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)