1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Python Toolbox

Connected

Cvičení

Iterátor pro načítání dat po částech (2)

V předchozím cvičení jsi použil/a read_csv() k načítání chunků DataFrame z velkého datasetu. V tomto cvičení načteš soubor s větším chunkem DataFrame a zpracuješ data z prvního chunku.

Při zpracování dat vytvoříš nový DataFrame složený pouze z řádků konkrétní země. Pak spojíš dva sloupce z tohoto nového DataFrame — 'Total Population' a 'Urban population (% of total)' — pomocí funkce zip(). Nakonec ze zip objektu vytvoříš seznam n-tic, kde každá n-tice obsahuje jednu hodnotu z každého z těchto dvou sloupců.

Budeš pracovat s daty ze souboru 'ind_pop_data.csv', který je dostupný v tvém aktuálním adresáři. pandas je importován jako pd.

Pokyny

100 XP
  • Pomocí pd.read_csv() načti soubor 'ind_pop_data.csv' po chuncích o velikosti 1000. Výsledek přiřaď do proměnné urb_pop_reader.
  • Z iterovatelného objektu urb_pop_reader získej první chunk DataFrame a přiřaď ho do proměnné df_urb_pop.
  • Vyber pouze řádky z df_urb_pop, které mají hodnotu 'CountryCode' rovnou 'CEB'. Porovnej, zda se df_urb_pop['CountryCode'] rovná hodnotě 'CEB', a to uvnitř hranatých závorek v df_urb_pop[____].
  • Pomocí zip() spoj sloupce 'Total Population' a 'Urban population (% of total)' z DataFrame df_pop_ceb. Výsledný zip objekt přiřaď do proměnné pops.