Escritura de un iterador para cargar datos en fragmentos (4)
En los ejercicios anteriores, solo has procesado los datos del primer fragmento del DataFrame. Esta vez, agregarás los resultados sobre todos los fragmentos de DataFrame del conjunto de datos. Esto significa básicamente que ahora procesarás todo el conjunto de datos. Esto está muy bien, porque podrás procesar todo el gran conjunto de datos trabajando solo con fragmentos más pequeños de él.
Usarás los datos de 'ind_pop_data.csv', disponible en tu directorio actual. Los paquetes pandas y matplotlib.pyplot se han importado como pd y plt, respectivamente, para que los uses.
Este ejercicio forma parte del curso
Caja de herramientas Python
Instrucciones del ejercicio
- Inicializa el DataFrame vacío
datautilizandopd.DataFrame(). - En el bucle
for, itera sobreurb_pop_readerpara poder procesar todos los fragmentos de DataFrame del conjunto de datos. - Concatena
dataydf_pop_cebpasando una lista de los DataFrames apd.concat().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize reader object: urb_pop_reader
urb_pop_reader = pd.read_csv('ind_pop_data.csv', chunksize=1000)
# Initialize empty DataFrame: data
data = ____
# Iterate over each DataFrame chunk
for df_urb_pop in ____:
# Check out specific country: df_pop_ceb
df_pop_ceb = df_urb_pop[df_urb_pop['CountryCode'] == 'CEB']
# Zip DataFrame columns of interest: pops
pops = zip(df_pop_ceb['Total Population'],
df_pop_ceb['Urban population (% of total)'])
# Turn zip object into list: pops_list
pops_list = list(pops)
# Use list comprehension to create new DataFrame column 'Total Urban Population'
df_pop_ceb['Total Urban Population'] = [int(tup[0] * tup[1] * 0.01) for tup in pops_list]
# Concatenate DataFrame chunk to the end of data: data
data = ____
# Plot urban population data
data.plot(kind='scatter', x='Year', y='Total Urban Population')
plt.show()