Importar um subconjunto de colunas

Os dados de impostos de Vermont contêm 147 colunas que descrevem a composição das famílias, fontes de renda e impostos pagos por CEP e faixa de renda. A maioria das análises não precisa de todas essas colunas. Neste exercício, você vai criar um dataframe com menos variáveis usando o argumento usecols de read_csv().

Vamos focar na composição familiar para ver se há diferenças por geografia e nível de renda. Para isso, vamos precisar das colunas de faixa de renda, CEP, status de declaração do imposto (por exemplo, solteiro ou casado) e dependentes. Os dados usam códigos como nomes de variáveis, então as colunas específicas necessárias estão nas instruções.

pandas já foi importado como pd.

Este exercicio faz parte do curso

Ingestão de dados simplificada com pandas

Ver curso

Instruções do exercicio

Crie uma lista com as colunas a usar: zipcode, agi_stub (faixa de renda), mars1 (número de domicílios de pessoas solteiras), MARS2 (número de domicílios declarando como casados) e NUMDEP (número de dependentes).
Crie um dataframe a partir de vt_tax_data_2016.csv usando apenas as colunas selecionadas.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create list of columns to use
cols = ____

# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)

# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())

Editar e Executar Código