Obter dados de outros arquivos flat
Embora CSVs sejam o tipo mais comum de arquivo flat, às vezes você vai encontrar arquivos que usam delimitadores diferentes. read_csv() consegue carregar todos eles com a ajuda do argumento nomeado sep. Por padrão, o pandas assume que o separador é uma vírgula, por isso não precisamos especificar sep para CSVs.
A versão dos dados de impostos de Vermont aqui é um arquivo de valores separados por tabulação (TSV), então você precisará usar sep para informar o delimitador correto ao ler o arquivo. Lembre-se de que tabulações são representadas como \t. Depois que o arquivo for carregado, o restante do código agrupa o campo N1, que contém categorias de faixas de renda, para criar um gráfico de declarações de imposto por categoria de renda.
Este exercício faz parte do curso
Ingestão de dados simplificada com pandas
Instruções do exercício
- Importe o
pandascom o aliaspd. - Carregue
vt_tax_data_2016.tsv, garantindo definir o delimitador correto com o argumentosep.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import pandas with the alias pd
____
# Load TSV using the sep keyword argument to set delimiter
data = ____(____, ____)
# Plot the total number of tax returns by income group
counts = data.groupby("agi_stub").N1.sum()
counts.plot.bar()
plt.show()