Importar um subconjunto de colunas
Os dados de impostos de Vermont contêm 147 colunas que descrevem a composição das famílias, fontes de renda e impostos pagos por CEP e faixa de renda. A maioria das análises não precisa de todas essas colunas. Neste exercício, você vai criar um dataframe com menos variáveis usando o argumento usecols de read_csv().
Vamos focar na composição familiar para ver se há diferenças por geografia e nível de renda. Para isso, vamos precisar das colunas de faixa de renda, CEP, status de declaração do imposto (por exemplo, solteiro ou casado) e dependentes. Os dados usam códigos como nomes de variáveis, então as colunas específicas necessárias estão nas instruções.
pandas já foi importado como pd.
Este exercício faz parte do curso
Ingestão de dados simplificada com pandas
Instruções do exercício
- Crie uma lista com as colunas a usar:
zipcode,agi_stub(faixa de renda),mars1(número de domicílios de pessoas solteiras),MARS2(número de domicílios declarando como casados) eNUMDEP(número de dependentes). - Crie um dataframe a partir de
vt_tax_data_2016.csvusando apenas as colunas selecionadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create list of columns to use
cols = ____
# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)
# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())