Importar um arquivo em blocos
Ao trabalhar com arquivos grandes, pode ser mais fácil carregar e processar os dados em partes. Vamos praticar esse fluxo com os dados de impostos de Vermont.
As primeiras 500 linhas já foram carregadas como vt_data_first500. Você vai obter as próximas 500 linhas. Para isso, use alguns argumentos nomeados: nrows e skiprows para buscar os registros corretos, header para informar ao pandas que os dados não têm nomes de colunas e names para fornecer os nomes de coluna ausentes. Você também vai usar a função list() para obter os nomes de coluna de vt_data_first500 e reaproveitá-los.
pandas já foi importado como pd.
Este exercício faz parte do curso
Ingestão de dados simplificada com pandas
Instruções do exercício
- Use
nrowseskiprowspara criar um dataframe,vt_data_next500, com as próximas 500 linhas. - Defina o argumento
headerpara que opandassaiba que não há linha de cabeçalho. - Nomeie as colunas em
vt_data_next500fornecendo ao argumentonamesuma lista com as colunas devt_data_first500.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv",
____,
____,
____,
____)
# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())