Importar um arquivo em blocos

Ao trabalhar com arquivos grandes, pode ser mais fácil carregar e processar os dados em partes. Vamos praticar esse fluxo com os dados de impostos de Vermont.

As primeiras 500 linhas já foram carregadas como vt_data_first500. Você vai obter as próximas 500 linhas. Para isso, use alguns argumentos nomeados: nrows e skiprows para buscar os registros corretos, header para informar ao pandas que os dados não têm nomes de colunas e names para fornecer os nomes de coluna ausentes. Você também vai usar a função list() para obter os nomes de coluna de vt_data_first500 e reaproveitá-los.

pandas já foi importado como pd.

Este exercicio faz parte do curso

Ingestão de dados simplificada com pandas

Ver curso

Instruções do exercicio

Use nrows e skiprows para criar um dataframe, vt_data_next500, com as próximas 500 linhas.
Defina o argumento header para que o pandas saiba que não há linha de cabeçalho.
Nomeie as colunas em vt_data_next500 fornecendo ao argumento names uma lista com as colunas de vt_data_first500.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv", 
                       		  ____,
                       		  ____,
                       		  ____,
                       		  ____)

# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())

Editar e Executar Código