Aan de slagGa gratis aan de slag

Gegevens ophalen uit andere platte bestanden

Hoewel CSV’s het meest voorkomende type plat bestand zijn, kom je soms bestanden tegen met andere scheidingstekens. read_csv() kan dit allemaal inladen met behulp van het argument sep. Standaard gaat pandas ervan uit dat de scheidingsteken een komma is, daarom hoeven we sep niet op te geven voor CSV’s.

De versie van de belastinggegevens van Vermont hier is een tab-gescheiden bestand (TSV), dus je moet sep gebruiken om het juiste scheidingsteken mee te geven bij het inlezen. Denk eraan dat tabs worden weergegeven als \t. Zodra het bestand is geladen, groepeert de rest van de code het veld N1, dat categorieën van inkomensbereiken bevat, om een grafiek te maken van belastingaangiften per inkomenscategorie.

Deze oefening maakt deel uit van de cursus

Gestroomlijnde data-inname met pandas

Cursus bekijken

Oefeninstructies

  • Importeer pandas met de alias pd.
  • Laad vt_tax_data_2016.tsv en stel het juiste scheidingsteken in met het argument sep.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import pandas with the alias pd
____

# Load TSV using the sep keyword argument to set delimiter
data = ____(____, ____)

# Plot the total number of tax returns by income group
counts = data.groupby("agi_stub").N1.sum()
counts.plot.bar()
plt.show()
Code bewerken en uitvoeren