Een subset van kolommen importeren

De belastingdata van Vermont bevat 147 kolommen over huishoudsamenstelling, inkomensbronnen en betaalde belastingen per postcode en inkomensgroep. Voor de meeste analyses heb je niet al deze kolommen nodig. In deze oefening maak je een dataframe met minder variabelen met behulp van het argument usecols van read_csv().

Laten we ons richten op de huishoudsamenstelling om te zien of er verschillen zijn per regio en inkomensniveau. Daarvoor hebben we kolommen nodig over inkomensgroep, postcode, aangiftestatus (bijv. alleenstaand of gehuwd) en ten laste komende personen. De data gebruikt codes als variabelenamen, dus de specifieke kolommen die je nodig hebt staan in de instructies.

pandas is al geïmporteerd als pd.

Deze oefening maakt deel uit van de cursus

Gestroomlijnde data-inname met pandas

Bekijk cursus

Oefeninstructies

Maak een lijst met te gebruiken kolommen: zipcode, agi_stub (inkomensgroep), mars1 (aantal alleenstaande huishoudens), MARS2 (aantal huishoudens dat als gehuwd aangifte doet) en NUMDEP (aantal ten laste komende personen).
Maak een dataframe van vt_tax_data_2016.csv dat alleen de geselecteerde kolommen gebruikt.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create list of columns to use
cols = ____

# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)

# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())

Code bewerken en uitvoeren