Importar un archivo por bloques
Cuando trabajas con archivos grandes, puede ser más fácil cargar y procesar los datos por partes. Practiquemos este flujo de trabajo con los datos fiscales de Vermont.
Las primeras 500 filas ya se han cargado en vt_data_first500. Tú obtendrás las siguientes 500 filas. Para ello, usarás varios argumentos con nombre: nrows y skiprows para recuperar los registros correctos, header para indicar a pandas que los datos no tienen nombres de columnas y names para proporcionar los nombres de columna que faltan. También te conviene usar la función list() para obtener los nombres de las columnas de vt_data_first500 y reutilizarlos.
Se ha importado pandas como pd.
Este ejercicio forma parte del curso
Ingesta de datos eficiente con pandas
Instrucciones del ejercicio
- Usa
nrowsyskiprowspara crear un dataframe,vt_data_next500, con las siguientes 500 filas. - Establece el argumento
headerpara quepandassepa que no hay una fila de cabecera. - Pon nombre a las columnas de
vt_data_next500proporcionando al argumentonamesuna lista con las columnas devt_data_first500.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv",
____,
____,
____,
____)
# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())