1. Learn
  2. /
  3. Kurser
  4. /
  5. Wprowadzenie do inżynierii danych

Connected

övning

Używanie DataFrame

W poprzednim ćwiczeniu zobaczyłeś, jak podzielić zadanie i skorzystać z niskopoziomowego API multiprocessing.Pool w Pythonie, aby wykonywać obliczenia na wielu jednostkach przetwarzających.

Warto rozumieć to na niższym poziomie, ale w praktyce rzadko kiedy sięga się po tego typu API. Wygodniejszym sposobem na zrównoleglenie operacji apply w obrębie wielu grup jest skorzystanie z frameworka dask i jego abstrakcji DataFrame wzorowanej na pandas.

DataFrame athlete_events z biblioteki pandas jest dostępny w twoim środowisku pracy.

Instruktioner 1/2

undefined XP
    1
    2
  • Utwórz 4 partycje DataFrame athletes_events, używając dd.from_pandas().

Jeśli nie pamiętasz parametrów dd.from_pandas(), zajrzyj ponownie do slajdów lub wpisz help(dd.from_pandas) w konsoli!