ComeçarComece de graça

Obter dados de outros arquivos flat

Embora CSVs sejam o tipo mais comum de arquivo flat, às vezes você vai encontrar arquivos que usam delimitadores diferentes. read_csv() consegue carregar todos eles com a ajuda do argumento nomeado sep. Por padrão, o pandas assume que o separador é uma vírgula, por isso não precisamos especificar sep para CSVs.

A versão dos dados de impostos de Vermont aqui é um arquivo de valores separados por tabulação (TSV), então você precisará usar sep para informar o delimitador correto ao ler o arquivo. Lembre-se de que tabulações são representadas como \t. Depois que o arquivo for carregado, o restante do código agrupa o campo N1, que contém categorias de faixas de renda, para criar um gráfico de declarações de imposto por categoria de renda.

Este exercício faz parte do curso

Ingestão de dados simplificada com pandas

Ver curso

Instruções do exercício

  • Importe o pandas com o alias pd.
  • Carregue vt_tax_data_2016.tsv, garantindo definir o delimitador correto com o argumento sep.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import pandas with the alias pd
____

# Load TSV using the sep keyword argument to set delimiter
data = ____(____, ____)

# Plot the total number of tax returns by income group
counts = data.groupby("agi_stub").N1.sum()
counts.plot.bar()
plt.show()
Editar e executar o código