Importar un archivo por bloques

Cuando trabajas con archivos grandes, puede ser más fácil cargar y procesar los datos por partes. Practiquemos este flujo de trabajo con los datos fiscales de Vermont.

Las primeras 500 filas ya se han cargado en vt_data_first500. Tú obtendrás las siguientes 500 filas. Para ello, usarás varios argumentos con nombre: nrows y skiprows para recuperar los registros correctos, header para indicar a pandas que los datos no tienen nombres de columnas y names para proporcionar los nombres de columna que faltan. También te conviene usar la función list() para obtener los nombres de las columnas de vt_data_first500 y reutilizarlos.

Se ha importado pandas como pd.

Este ejercicio forma parte del curso

Ingesta de datos eficiente con pandas

Ver curso

Instrucciones del ejercicio

Usa nrows y skiprows para crear un dataframe, vt_data_next500, con las siguientes 500 filas.
Establece el argumento header para que pandas sepa que no hay una fila de cabecera.
Pon nombre a las columnas de vt_data_next500 proporcionando al argumento names una lista con las columnas de vt_data_first500.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv", 
                       		  ____,
                       		  ____,
                       		  ____,
                       		  ____)

# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())

Editar y ejecutar código