Importa un sottoinsieme di colonne

I dati fiscali del Vermont contengono 147 colonne che descrivono la composizione dei nuclei familiari, le fonti di reddito e le imposte pagate per CAP e fascia di reddito. La maggior parte delle analisi non richiede tutte queste colonne. In questo esercizio creerai un dataframe con meno variabili usando l’argomento usecols di read_csv().

Concentriamoci sulla composizione familiare per verificare se ci sono differenze per area geografica e livello di reddito. Per farlo, ci serviranno le colonne su fascia di reddito, CAP, stato della dichiarazione dei redditi (ad esempio, single o coniugato) e persone a carico. I dati usano codici come nomi di variabile, quindi le colonne specifiche necessarie sono indicate nelle istruzioni.

pandas è già stato importato come pd.

Questo esercizio fa parte del corso

Acquisizione dati semplificata con pandas

Visualizza corso

Istruzioni dell'esercizio

Crea un elenco di colonne da usare: zipcode, agi_stub (fascia di reddito), mars1 (numero di nuclei single), MARS2 (numero di nuclei che dichiarano come coniugati) e NUMDEP (numero di persone a carico).
Crea un dataframe da vt_tax_data_2016.csv che utilizzi solo le colonne selezionate.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create list of columns to use
cols = ____

# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)

# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())

Modifica ed esegui il codice