Een subset van kolommen importeren
De belastingdata van Vermont bevat 147 kolommen over huishoudsamenstelling, inkomensbronnen en betaalde belastingen per postcode en inkomensgroep. Voor de meeste analyses heb je niet al deze kolommen nodig. In deze oefening maak je een dataframe met minder variabelen met behulp van het argument usecols van read_csv().
Laten we ons richten op de huishoudsamenstelling om te zien of er verschillen zijn per regio en inkomensniveau. Daarvoor hebben we kolommen nodig over inkomensgroep, postcode, aangiftestatus (bijv. alleenstaand of gehuwd) en ten laste komende personen. De data gebruikt codes als variabelenamen, dus de specifieke kolommen die je nodig hebt staan in de instructies.
pandas is al geïmporteerd als pd.
Deze oefening maakt deel uit van de cursus
Gestroomlijnde data-inname met pandas
Oefeninstructies
- Maak een lijst met te gebruiken kolommen:
zipcode,agi_stub(inkomensgroep),mars1(aantal alleenstaande huishoudens),MARS2(aantal huishoudens dat als gehuwd aangifte doet) enNUMDEP(aantal ten laste komende personen). - Maak een dataframe van
vt_tax_data_2016.csvdat alleen de geselecteerde kolommen gebruikt.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create list of columns to use
cols = ____
# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)
# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())