Iterátor pro načítání dat po částech (2)

V předchozím cvičení jsi použil/a read_csv() k načítání chunků DataFrame z velkého datasetu. V tomto cvičení načteš soubor s větším chunkem DataFrame a zpracuješ data z prvního chunku.

Při zpracování dat vytvoříš nový DataFrame složený pouze z řádků konkrétní země. Pak spojíš dva sloupce z tohoto nového DataFrame — 'Total Population' a 'Urban population (% of total)' — pomocí funkce zip(). Nakonec ze zip objektu vytvoříš seznam n-tic, kde každá n-tice obsahuje jednu hodnotu z každého z těchto dvou sloupců.

Budeš pracovat s daty ze souboru 'ind_pop_data.csv', který je dostupný v tvém aktuálním adresáři. pandas je importován jako pd.

Toto cvičení je součástí kurzu

Python Toolbox

Zobrazit kurz

Pokyny k cvičení

Pomocí pd.read_csv() načti soubor 'ind_pop_data.csv' po chuncích o velikosti 1000. Výsledek přiřaď do proměnné urb_pop_reader.
Z iterovatelného objektu urb_pop_reader získej první chunk DataFrame a přiřaď ho do proměnné df_urb_pop.
Vyber pouze řádky z df_urb_pop, které mají hodnotu 'CountryCode' rovnou 'CEB'. Porovnej, zda se df_urb_pop['CountryCode'] rovná hodnotě 'CEB', a to uvnitř hranatých závorek v df_urb_pop[____].
Pomocí zip() spoj sloupce 'Total Population' a 'Urban population (% of total)' z DataFrame df_pop_ceb. Výsledný zip objekt přiřaď do proměnné pops.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Initialize reader object: urb_pop_reader
urb_pop_reader = pd.read_csv(____, ____)

# Get the first DataFrame chunk: df_urb_pop
df_urb_pop = next(____)

# Check out the head of the DataFrame
print(df_urb_pop.head())

# Check out specific country: df_pop_ceb
df_pop_ceb = df_urb_pop[____]

# Zip DataFrame columns of interest: pops
pops = zip(____, ____)

# Turn zip object into list: pops_list
pops_list = list(pops)

# Print pops_list
print(pops_list)

Upravit a spustit kód